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很 系统 : 讲解 19 种 机 器 学 习 经 典 算法 , 依次 击破 重 难点 
RAF: 书 中 包括 113 张 图 解说 明 , 方便 读者 理解 

很 实用 : 囊括 文本 识别 、 语 音 识 别 、 图 形 识别 、 人 脸 识 别 等 
很 实战 : 31 个 实例 、13 个 案例 ,详解 TensorFlow 机 器 学 习 
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本 书 通过 开发 实例 和 项 目 案例 ， 详 细 介绍 TensorFlow 开发 所 涉及 的 主要 内 容 。 书 中 的 每 个 知识 点 都 
通过 实例 进行 通俗 易 懂 的 讲解 ， 便 于 读者 轻松 掌握 有 关 TensorFlow 开发 的 内 容 和 技巧 ， 并 能 够 得 心 应 手 


地 使 用 TensorFlow 进行 开发 。 


本 书 内 容 共 分 为 11 章 ， 首 先 介绍 TensorFlow 的 基本 知识 ， 通 过 实例 逐步 深入 地 讲解 线性 回归 、 支 持 


向 量 机 、 神 经 网 络 算法 和 无 监督 学 习 等 常见 的 机 器 学 习 算 法 模型 。 然 后 通过 TensorFlow 在 自然 语言 文本 
处 理 、 语 音 识别 、 图 形 识别 和 人 脸 识别 等 方面 的 成 功 应 用 讲解 TensorFlow 的 实际 开发 过 程 。 

本 书 适合 有 一 定 Python 基础 的 工程 师 阅读 ， 对 于 有 一 定 基础 的 读者 ， 可 通过 本 书 快 速 地 将 
TensorFlow 应 用 到 实际 开发 中 ， 对 于 高 等 院 校 的 学 生 和 培训 机 构 的 学 员 ， 本 书 也 是 入 门 和 实践 机 器 学 习 


的 优秀 教材 。 


本 书 对 应 的 电子 课件 和 实例 源 代码 可 以 到 http://www.tupwk.com.cn/downpage 下 载 ， 也 可 通过 扫描 前 


言 中 的 二 维 码 下 载 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 (CIP) 数 据 


Python+TensorFlow 机 器 学 习 实战 / 李 鸥 编著 . 一 北京 清华 大 学 出 版 社 ，2019 


ISBN 978-7-302-52260-7 
I.QP- II.@ 李 … M. @ 软 件 工具 一 程序 设计 @ 人 工 智 能 一 算法 
中 国 版 本 图 书馆 CIP 数据 核 字 (2019) 第 018842 号 


责任 编辑 : D 
封面 设计 ， 
版 式 设计 : 孔 祥 峰 
责任 校对 : 牛 艳 敏 
责任 印 制 ; 


出 版 发 行 : 清华 大 学 出 版 社 
网 Hb: http//www.tup.com.en, http;//www.wqbook.com 


IV. TP311.561@TP18 


地 H: 北京 清华 大 学 学 研 大 厦 A 座 AB 4: 100084 
3k 总 机 : 010-62770175 邮 W: 010-62786544 


投稿 与 读者 服务 : 010-62776969, c-service@tup.tsinghua.edu.cn 


JR 量 反 馈 : 010-62772015, zhiliang@tup.tsinghua.edu.cn 


Ep 装 者 : 

经 ” 销 : 全 国 新 华 书店 

JF 本: 185mmX260mm Ep — 3K: 15.5 字 ” 数 : 358 千 字 
版 ”次 : 2019 年 6 月 第 1 版 Ep ”次 : 2019 年 6 月 第 1 次 印刷 

EP — 38: 1~3000 

X M: 790076 


前 E 


2016 年 3 月 ， 谷 歌 公 司 的 AlphaGo 与 职业 九段 棋 手 李 世 石 进行 了 围棋 人 机 大 战 ， 最 终 
AlphaGo 以 4 比 1 的 总 比分 获胜 ， 这 引起 了 全 球 对 人 工 智 能 的 热 议 。 同 时 ， 百 度 推 出 的 无 人 
驾驶 ， 科 大 讯 飞 推出 的 “语音 识别 ”， 以 及 高 铁 进 站 的 人 脸 识别 的 广泛 应 用 ， 将 机 器 学 习 
转变 为 信息 科技 企业 的 研究 与 应 用 的 常见 内 容 ， 这 也 让 我 们 的 日 常生 活 更 为 便捷 。 

其 实 ， 机 器 学 习 已 经 走 过 符 号 主义 时 代 、 概 率 论 时 代 、 联 结 主义 时 代 ， 从 最 初 的 仅 
是 专家 研究 的 数学 理论 、 经 典 算法 ， 逐 步 发 展 并 晓 变 为 可 以 为 大 部 分 项 目 直接 使 用 的 平 
台 框 架 。 

2015 年 11 月 9 日 ， 谷 歌 在 GitHub 上 开源 了 TensorFlow 框 架 ， 该 框架 是 谷歌 的 机 器 学 习 
框架 ， 具 有 高 度 的 灵活 性 和 可 移植 性 。 在 TensorFlow 中 ， 将 各 种 经 典 算法 特别 是 神经 网 络 
模型 组 织 成 一 个 平台 ， 能 够 让 我 们 更 便捷 地 在 目标 领域 实践 机 器 学 习 算 法 。 

TensorFlow 作 为 最 流行 的 机 器 学 习 框 架 之 一 ， 具 有 对 Python 语言 的 良好 支持 ， 这 有 效 
降低 了 进行 机 器 学 习 开 发 的 门槛 ， 让 更 多 的 工程 师 能 够 以 低 成 本 投身 到 人 工 智 能 的 浪潮 
中 。TensorFlow 框 架 能 够 支持 CPU、GPU 或 Google TPU 等 硬件 环境 ， 让 机 器 学 习 能 够 便捷 
地 移植 到 各 种 环境 中 。 

本 书 将 全 面 阐述 TensorFlow 机 器 学 习 框架 的 原理 、 概 念 ， 详 细 讲 解 线性 回归 、 支 持 向 
量 机 、 神 经 网 络 算法 和 无 监督 学 习 等 常见 的 机 器 学 习 算 法 模型 ， 并 通过 TensorFlow 在 自然 
语言 文本 处 理 、 语 音 识别 、 图 形 识 别 和 人 脸 识 别 等 方面 的 成 功 应 用 来 讲解 TensorFlow 的 实 
际 开发 过 程 。 本 书 在 语言 上 力求 幽默 直 白 、 轻 松 活泼 ， 避 免 云 山 雾 四 、 歇 难 懂 。 在 讲解 
形式 上 图 文 并 茂 ， 由 浅 入 深 ， 抽 丝 剥 草 。 通 过 阅读 本 书 ， 读 者 可 以 少 走 很 多 弯路 ， 快 速 上 
手 TensorFlow 开 发 。 


本 书 特 色 
1. 内 容 丰 富 、 全 面 


全 书 内 容 共 分 11 章 ， 从 机 器 学 习 概 述 到 TensorFlow 基 础 ， 再 到 实际 应 用 ， 内 容 几乎 涵 
盖 TensorFlow 开 发 的 所 有 方面 。 
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2. 实例 丰富 、 案 例 典 型 、 实 用 性 强 

本 书 对 每 一 个 知识 点 都 以 实际 应 用 的 形式 进行 讲解 ， 帮 助 读者 理解 和 掌握 相关 的 开发 
技术 。 本 书 还 在 最 后 提供 了 TensorFlow 在 图 形 识别 、 文 本 识别 和 语音 识别 等 方面 成 功 应 用 
的 实例 ， 帮 助 读者 提高 实战 水 平 。 

3. 紧 跟 技 术 趋 势 

本 书 针对 目前 发 布 的 TensorFlow 的 常用 版 本 1.3 进 行 讲 解 ， 并 涉及 1.6 版 本 的 变化 ， 气 
弃 了 以 前 版 本 中 不 再 使 用 的 功能 ， 以 适应 技术 的 发 展 趋势 。 

4. 举一反三 

本 书写 作 由 浅 入 深 、 从 易 到 难 ， 并 注意 知识 点 之 间 的 联系 ， 让 读者 掌握 一 个 知识 点 
后 ， 能 够 触 类 旁 通 、 举 一 反 三 ， 编 写 相 应 的 代码 。 


本 书 内 容 及 体系 结构 

第 1 章 简 单 讲 述 机 器 学 习 的 发 展 、 分 类 以 及 经 典 算法 ， 介 绍 TensorFlow 的 发 展 和 优 
势 ， 并 详细 介绍 不 同 操作 系统 环境 下 TensorFlow 开 发 环境 的 准备 过 程 。 

第 2 章 讲解 TensorFlow 的 基础 知识 ， 包 括 基础 框架 、 源 代码 结构 、 基 础 概念 ， 并 通过 
运行 一 个 官方 示例 展示 了 可 视 化 的 调试 。 

第 3 章 讲解 TensorFlow 在 实际 进行 机 器 学 习 时 的 加 载 训练 数据 、 构 建 训练 模型 、 进 行 
数据 训练 、 评 估 和 预测 四 大 步骤 中 常用 的 方法 和 技巧 。 

第 4 章 详细 讲解 机 器 学 习 算 法 中 最 基础 的 线性 模型 ;回归 模型 和 轴 辑 回归 模型 。 

第 5 章 讲解 TensorFlow 中 支持 向 量 机 算法 的 基本 原理 及 核 函 数 ， 并 使 用 SVM 完成 线性 
可 归 拟 合 、 逻 辑 回归 分 类 以 及 非 线性 数据 分 类 等 。 

第 6 章 对 神经 网 络 模型 进行 详细 介绍 ， 讲 解 神经 元 模型 、 神 经 网 络 层 等 基本 原理 ， 并 
讲解 全 连接 神经 网 络 、 卷 积 神经 网 络 和 循环 神经 网 络 等 主要 神经 网 络 的 原理 与 计算 过 程 ， 
并 在 TensorFlow 中 使 用 具体 案例 讲解 通用 神经 网 络 层 的 构建 、 卷 积 层 的 使 用 、 池 化 层 的 使 
用 、 循 环 神经 元 的 构建 以 及 损失 函数 的 选择 等 。 

第 7 章 主 要 介绍 无 监督 学 习 的 概念 和 经 典 算法 。 

第 8 章 讲解 TensorFlow 在 自然 语言 文本 处 理 中 的 应 用 ， 如 学 写 唐 诗 、 影 评分 类 以 及 智 
能 聊天 机 器 人 等 。 

第 9 章 讲解 TensorFlow 在 语音 处 理 方面 的 应 用 ， 如 听 懂 数字 、 听 懂 中 文 以 及 语音 合 
成 等 。 

第 10 章 讲解 TensorFlow 在 图 像 处 理 方面 的 应 用 ， 如 图 像 处 理 中 的 物体 识别 与 检测 、 图 
像 描述 。 

第 11 章 讲解 TensorFlow 在 人 脸 识别 方面 的 应 用 ， 介 绍 人 脸 识 别 的 原理 和 分 类 、 人 脸 比 
对 以 及 从 人 脸 判 别 性 别 和 年 龄 。 


本 书 读者 对 象 


口 初中 级 程序 员 。 
高 等 院 校 师 生 。 


口 
O 培训 机 构 学 员 。 
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机 器 学 习 的 工程 师 。 


在 本 书 的 成 稿 过 程 中 ， 熊 诺 


别 表示 感谢 。 
本 书 对 应 的 


电子 课件 和 实例 


可 通过 扫描 下 方 


4 二 维 码 下 载 。 
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机 器 学 习 概述 


本 章 介 绍 人 工 智 能 和 机 器 学 习 的 
发 展 ， 讲 解 机 器 学 习 的 主要 框架 ， 解 释 
TensorFlow 的 作用 、 特 性 以 及 开发 环境 的 
准备 过 程 。 


d 


毫 无 疑问 ， 目 前 人 工 智能 在 全 球 的 火热 与 AlphaGo( 阿 尔 法 狗 ) 的 战绩 密 不 可 分 。2016 
年 3 月 ， 谷 歌 公司 的 AlphaGo 与 职业 九段 棋 手 李 世 石 进行 围棋 人 机 大 战 ， 最 终 以 4 比 1 的 总 
比分 获胜 ， 这 引起 了 全 球 热 议 。2017 年 年 初 ，AlphaGo 化 身 为 Master， 在 棋 类 平台 上 横扫 
中 日 韩 围棋 高 手 ， 取 得 60 连 胜 ， 再 度 引 发 全 民 对 人 工 智 能 的 讨论 。 

虽然 人 工 智能 是 在 AlphaGo 战 胜 李 世 石 之 后 才 成 了 坊间 谈资 ， 引 起 所 有 人 的 关注 ， 但 
人 工 智 能 的 提出 已 经 有 近 百 年 的 历史 。 

早 在 20 世 纪 50 年 代 ， 计 算 机 科学 家 就 提出 了 “人 工 智能 ”的 概念 ， 想 制造 出 和 人 类 外 
形 相 同 、 能 够 与 人 类 正常 对 话 、 能 够 自我 学 习 的 机 器 。 阿 兰 。 图 灵 还 提出 了 著名 的 “图 灵 
测试 ”来 判定 计算 机 是 否 智能 : 如 果 一 台 机 器 能 够 与 人 类 展开 对 话 而 不 被 辨别 出 其 机 器 身 
份 ， 那 么 称 这 人 台 机 器 具有 智能 。 从 此 以 后 ， 人 工 智 能 就 一 直 是 人 们 在 科研 、 工 业 以 及 电影 
中 努力 实现 的 目标 ， 也 确实 在 不 断 地 发 展 。 

现在 ， 人 工 智能 已 经 发 展 为 一 门 广泛 的 交叉 和 前 沿 科 学 ， 涉 及 计算 机 科学 、 心 理学 、 
哲学 和 语言 学 等 学 科 ， 也 被 广泛 地 应 用 到 语音 识别 、 图 像 识 别 、 自 然 语 言 处 理 等 领域 。 

在 国际 上 ， 谷 歌 、 微 软 、IBM 等 都 有 自己 的 人 工 智能 项 目 ， 如 谷歌 的 DeepMind、IBM 
的 Watson、 微 软 的 Torque 等 项 目 。 

国内 的 各 大 公司 也 积极 投身 于 人 工 智 能 领域 。 百 度 成 立 了 Apollo 基 金 和 DuerOS 基 金 ， 
推动 中 国 AI 的 发 展 ， 腾 讯 创建 了 人 工 智能 实验 室 AI Lab， 专 注 于 人 工 智 能 的 基础 研究 ， 阿 
里 巴巴 成 立 的 人 工 智 能 实验 室 ， 主 要 面向 消费 级 的 AI 产品 研发 ， 搜 狗 向 清华 大 学 捐赠 1.8 
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亿 元 ， 一 起 成 立 了 “天 工 智能 计算 研究 院 ” 等 。 目 前 这 些 公 司 也 陆续 推出 了 各 自 的 产品 : 
腾讯 开发 的 机 器 人 “Dreamwriter”， 百 度 的 无 人 驾驶 ， 搜 狗 、 科 大 讯 飞 等 公司 的 “语音 识 
别 ”， 旷 视 科 技 的 “Face++” 人 脸 识别 等 。 


| WE 机 器 学 习 M 


[1.2.1] 机 器 学 习 的 发 展 


为 了 让 计算 机 能 够 实现 类 似 人 类 的 智能 ， 在 计算 机 的 实际 实现 上 出 现 了 两 种 完全 不 同 
的 方向 : 一 种 是 采用 传统 的 编程 技术 ， 使 系统 呈现 智能 的 效果 ; 另 一 种 是 采用 计算 机 训练 
学 习 的 方式 来 实现 智能 的 效果 。 一 般 来 说 ， 现 在 我 们 使 用 的 机 器 学 习 都 是 通过 算法 来 解析 
数据 、 学 习 数 据 的 ， 然 后 据 此 对 真实 世界 中 的 事件 做 出 决策 和 预测 。 

“机 器 学 习 ” 这 一 术语 由 IBM 的 科学 家 亚 瑟 。 塞 缪 尔 提出 。 他 在 1952 年 开发 了 一 个 跳 
棋 程 序 ， 该 程序 能 够 观察 当前 位 置 ， 并 学 习 一 个 隐 含 的 模型 ， 从 而 为 后 续 动 作 提供 更 好 的 
指导 ， 并 且 随 着 该 程序 运行 时 间 的 增加 ， 可 以 实现 越 来 越 可 靠 的 后 续 指导 。 他 针对 这 种 计 
算 机 的 实现 能 力 提 出 了 “机 器 学 习 ”。 

在 机 器 学 习 领 域 ， 计 算 机 科学 家 不 断 探索 ， 基 于 不 同 的 理论 创建 出 不 同 的 机 器 学 习 
模型 。 从 发 展 历 程 来 说 ， 大 致 经 历 了 三 个 阶段 : 符号 主义 时 代 、 概 率 论 时 代 以 及 联结 主 
义 时 代 。 

O 符号 主义 时 代 (1980 年 左右 )。 以 知识 工程 为 主要 理论 依据 ， 使 用 服务 器 或 大 型 机 

进行 架构 运算 ， 通 过 符号 、 规 则 和 逻辑 来 表征 知识 和 进行 逻辑 推理 ， 常 用 的 算法 
有 规则 和 决策 树 ， 实 用 性 有 限 。 

口 概率 论 时 代 (1990 一 2000 年 )。 以 概率 论 为 主要 理论 依据 ， 使 用 小 型 服务 器 集群 进 
行 架构 运算 ， 通 过 获取 发 生 的 可 能 性 来 进行 概率 推理 ， 常 用 的 算法 有 朴素 贝 叶 斯 
或 马尔 可 夫 算 法 ， 具 有 可 扩展 的 比较 或 对 比 功能 ， 对 许多 任务 都 表现 得 足够 好 。 

口 联结 主义 时 代 (2010 年 左右 )。 以 神经 科学 和 概率 为 主要 理论 依据 ， 使 用 云 计 算 架 
构 ， 通 过 使 用 概率 矩阵 和 加 权 神 经 元 来 动态 地 识别 和 归纳 模式 ， 常 用 的 算法 有 神 
经 网 络 ， 能 够 让 计算 机 “看 懂 图 像 ”“ 听 懂 语 言 ”， 甚 至 能 够 分 析 人 类 在 语言 
后 表达 的 情绪 。 

不 同 算法 在 不 同 应 用 场景 下 有 着 不 同 的 表现 ， 每 一 个 阶段 仅仅 取得 了 某 些 领域 的 突破 
性 进展 ， 并 没有 完全 苏 覆 前 一 阶段 的 成 果 。 相 信 在 后 续 的 发 展 中 ， 将 会 把 符号 规则 理论 、 
概率 论 、 神 经 科学 和 进化 论 等 理论 相 融 合 ， 并 演变 出 不 同 的 算法 ， 通 过 多 种 学 习 方 式 获得 
知识 或 经 验 ， 推 动机 器 学 习 继 续 发 展 。 
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机 器 学 习 的 分 类 


机 器 学 习 是 计算 机 进行 数据 处 理 ， 找 到 数据 间 映 射 关系 的 过 程 。 在 进行 数据 处 理 分 析 
时 ， 对 于 输入 的 数据 ， 有 的 是 经 过 人 工 来 定义 数据 标签 的 ， 方 法 是 先 找到 数据 的 特征 与 其 
标签 的 映射 关系 ， 再 凭借 这 种 映射 关系 ， 对 未 进行 标签 定义 的 数据 进行 标签 定义 。 输 入 的 
初始 数据 也 有 一 些 是 没有 经 过 人 工 定义 数据 标签 的 ， 只 是 单纯 依靠 数据 处 理 分 析 来 找到 数 
据 之 间 的 标签 映射 关系 。 

本 以 按照 输入 的 数据 本 身 是 否 已 被 标定 特定 的 标签 将 机 器 学 习 区 分 为 有 监督 学 习 、 无 
监督 学 习 以 及 半 监 督学 习 三 类 。 

1. 有 监督 学 习 

有 监督 学 习 (Supervised Learning) 就 是 样本 数据 集中 的 数据 ， 包 括 样 本 数据 以 及 样本 数 
据 的 标签 。 
进行 学 习 的 目的 就 是 找到 样本 数据 与 样本 数据 标签 的 映射 关系 。 通 过 对 样本 数据 的 不 
断 学 习 、 不 断 修正 学 习 中 的 偏差 ， 使 得 找到 的 映射 关系 更 准确 ， 从 而 不 断 提高 学 习 的 准确 
率 。 当 学 习 完 成 后 ， 再 给 予 新 的 未 知 数据 ， 能 够 依据 学 习 的 映射 关系 计算 出 相对 正确 的 结 
果 。 由 于 样本 数据 中 既 包 括 数据 也 包括 标签 ， 因 此 训练 的 效果 往往 都 不 错 。 

有 监督 学 习 主 要 用 于 解决 两 大 类 问题 ， 回 归 问 题 (Regression Problem) 和 分 类 问题 
(Classification Problem). 

归 问 题 就 是 通过 对 现 有 数据 的 分 析 ， 找 到 映射 关系 ， 对 以 后 的 事情 进行 预测 的 情 
况 。 比 如 ， 我 们 想 预 测 未 来 房价 会 是 多 少 。 我 们 获取 以 前 的 房价 与 时 间 的 数据 ， 可 以 将 
这 些 数 据 看 作 多 维度 坐标 系 中 的 坐标 点 ， 通 过 回归 分 析 ， 建 立 数据 的 关系 模型 ， 求 出 一 
个 最 符合 这 些 已 知 数据 集 的 解析 函数 ， 然 后 通过 这 个 解析 函数 来 预 估 未 来 的 房价 。 对 于 
解决 回归 问题 ， 主 要 有 线性 回归 (Linear Regression)、 决 策 树 (Decision Tree)、 随 机 森林 
(Random Forest)、 梯 度 提 升 决策 树 (Gradient Boosting Tree)、 神 经 网 络 (Neural Network) 
等 算法 可 供 使 用 。 

分 类 问题 就 是 通过 对 现 有 数据 的 分 析 ， 找 到 数据 间 的 联系 与 区 别 ， 对 数据 进行 分 类 。 
比如 ， 判 断 某 地 房价 的 “ 涨 ” 与 “ 跌 ” 的 问题 。 我 们 获取 以 前 的 房价 、 地 区 、 户 型 和 时 
间 等 数据 ， 通 过 这 些 数据 建立 数据 与 “ 涨 ” 和 “ 跌 ” 的 关系 模型 。 当 输入 新 的 值 时 ， 能 
够 根据 关系 模型 判断 房价 是 “ 涨 ”还 是 “ 跌 ” 了 。 对 于 解决 分 类 问题 ， 主 要 有 逻辑 回归 
(Logistics Regression)、 决 策 树 (Decision Tree)、 随 机 森林 (Random Forest)、 梯 度 提升 决策 
树 (Gradient Boosting Tree)、 核 函数 支持 向 量 机 (Kernel SVM)、 朴 素 贝 叶 斯 (Naive Bayes), 
SVM 线 性 分 类 (Linear SVM)、 神 经 网 络 (Neural Network) 等 算法 可 供 使 用 。 

2. 无 监督 学 习 

无 监督 学 习 (Unsupervised Learning) 就 是 在 样本 数据 中 只 有 数据 ， 而 没有 对 数据 进行 标 
记 。 无 监督 学 习 的 目的 就 是 让 计算 机 对 这 些 原始 数据 进行 分 析 ， 让 计算 机 自己 去 学 习 、 找 
到 数据 之 间 的 某 种 关系 。 


z| 
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无 监督 学 习 与 有 监督 学 习 的 明显 区 别 就 是 在 样本 数据 中 只 有 数据 ， 没 有 标记 。 由 于 没 
有 对 数据 进行 标记 ， 因 此 学 习 的 结果 也 难以 验证 是 否 正确 ， 也 难以 对 学 习 的 模型 进行 正确 
率 的 判断 。 对 于 无 监督 学 习 的 这 种 特点 ， 学 习 的 思路 和 目的 主要 有 两 类 : 聚 类 (Clustering) 
和 强化 学 习 (Reinforcement Learning, RL). 

聚 类 就 是 对 于 未 标记 的 数据 ， 在 训练 时 根据 数据 本 身 的 数据 特征 进行 训练 ， 呈 现 出 数 
据 集聚 的 形式 ， 每 一 个 集聚 群 中 的 数据 ， 彼 此 都 有 相似 的 性 质 ， 从 而 形成 分 组 。 比 如 我 们 
使 用 的 今日 头条 ， 它 每 天 会 收集 大 量 的 新 闻 ， 然 后 把 它们 全 部 聚 类 ， 就 会 自动 分 成 娱乐 、 
科技 和 政治 等 几 十 个 不 同 的 组 ， 每 个 组 内 的 新 闻 都 具有 相似 的 内 容 结构 。 
强化 学 习 是 游戏 中 常用 的 一 种 学 习 方 式 ， 是 指 在 学 习 中 增加 一 种 延迟 奖赏 机 制 。 通 过 
学 习 过 程 中 的 延迟 奖赏 激励 函数 ， 可 以 让 机 器 学 习 到 当前 状态 下 ， 执 行 哪 一 种 操作 使 得 最 
终 的 奖赏 最 多 ， 从 而 让 机 器 学 习 获 得 一 种 类 似 于 决策 的 能 力 ， 比 如 AlphaGo 也 使 用 了 这 种 
强化 学 习 方 式 。 

用 于 无 监督 学 习 的 经 典 算 法 有 聚 类 算法 、EM 算 法 和 深度 学 习 算法 等 。 

3. 半 监 督学 习 

半 监 督学 习 (Semi-Supervised Learning) 是 介 于 有 监督 学 习 和 无 监督 学 习 之 间 的 学 习 。 一 般 
来 说 ， 在 半 监 督学 习 输入 的 数据 样本 中 ， 存 在 一 部 分 进行 了 标记 的 数据 ， 但 是 大 量 存在 的 是 
没有 进行 标记 的 数据 。 

为 了 利用 未 标记 的 样本 ， 必 须 先 对 未 标记 样本 揭示 的 数据 分 布 信息 与 类 别 进 行 假设 ， 
最 常见 的 两 种 假设 方式 是 聚 类 假设 (Cluster Assumption) 和 流 形 假设 (Maniford Assumption)» 

对 于 聚 类 假设 ， 是 假设 数据 存在 簇 结构 ， 同 一 个 簇 的 样本 属于 同一 个 类 别 。 对 标记 数 
据 和 未 标记 数据 进行 聚 类 ， 如 果 待 预测 样本 与 标记 样本 聚 在 一 起 ， 则 认为 待 预测 样本 属于 
标记 样本 类 。 

对 于 流行 假设 ， 是 假设 数据 分 布 在 一 种 流行 结构 上 ， 和 邻近 的 样本 拥有 相似 的 输出 值 。 
邻近 的 程度 常用 相似 程度 进行 刻画 。 流 行 假 设 对 输出 值 没 有 限制 ， 相 对 于 聚 类 假设 而 言 ， 
它 的 适用 范围 更 广 ， 可 用 于 更 多 类 型 的 学 习 任 务 。 


机 器 学 习 的 经 典 算法 


随 着 机 器 学 习 的 不 断 发 展 ， 出 现 了 许多 经 典 算法 ， 这 些 算法 为 我 们 解决 实际 问题 提供 
了 强大 的 支持 。 

1. 线性 模型 

线性 模型 就 是 使 用 简单 的 公式 通过 一 组 数据 点 来 查找 最 优 拟 合 线 。 然 后 ， 通 过 已 知 
的 变量 方程 ， 求 出 需要 预测 的 变量 。 对 于 不 同形 式 的 线性 模型 算法 ， 主 要 包括 线性 回归 
(Linear Regression) 和 逻辑 回归 (Logistic Regression). 

线性 回归 从 二 维 几 何平 面 的 角度 可 以 理解 为 ， 在 平面 中 存在 已 知 的 数据 点 ， 通 过 学 习 
处 理 ， 找 到 一 条 线 能 够 建立 这 些 点 之 间 的 关系 的 模型 。 线 性 回归 用 于 解决 回归 问题 ， 是 最 
简单 的 线性 模型 ， 易 于 理解 。 同 时 ， 由 于 模型 太 简单 而 不 能 反映 变量 之 间 复 杂 的 关系 ， 因 
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此 容易 出 现 过 拟 合 的 情形 。 
逻辑 回归 是 给 定 样本 属于 类 别 “1” 和 类 别 “-1” 的 概率 ， 用 于 解决 分 类 问题 ， 与 线 
性 回归 的 特点 一 样 ， 易 于 理解 但 无 法 反映 变量 间 的 复杂 关系 ， 易 出 现 过 拟 合 的 情形 。 

2. 树 型 模型 

树 型 模型 用 于 探索 数据 集中 数据 的 特性 ， 并 且 能 够 对 数据 按照 数据 特征 进行 分 类 处 
理 ， 可 以 用 于 解决 分 类 和 回归 问题 。 树 型 模型 高 度 精确 、 稳 定 且 易于 解释 ， 可 以 映射 非 线 
性 关系 以 求解 问题 ， 主 要 包括 决策 树 (Decision Tree)、 随 机 森林 (Random Forest) 和 梯度 提升 
决策 树 (Gradient Boosting Tree)。 

决策 树 是 使 用 分 支 方法 来 显示 决策 的 每 个 可 能 结果 的 图 ， 它 对 所 有 的 可 能 性 进行 梳 
理 。 这 种 算法 易于 理解 和 实现 ， 但 是 由 于 决策 树 有 时 太 简 单 ， 无 法 处 理 复杂 的 数据 ， 因 此 
一 般 不 会 单独 使 用 。 

随机 森林 是 许多 决策 树 的 平均 ， 每 个 决策 树 都 用 数据 的 随机 样本 训练 。 森 林 中 每 个 
独立 的 树 都 比 完 整 的 决策 树 弱 ， 但 是 通过 将 它们 结合 在 一 起 ， 可 以 通过 多 样 性 获得 更 高 
的 整体 表现 。 该 算法 非常 容易 构建 并 且 表 现 往往 良好 ， 但 是 相 比 于 其 他 算法 输出 预测 可 
能 较 慢 。 

梯度 提升 决策 树 和 随机 森林 类 似 ， 都 是 由 弱 决 策 树 构成 的 ， 但 最 大 的 区 别 在 于 : Ph 
度 提 升 决策 树 中 ， 树 是 一 个 接 一 个 被 相继 训练 的 ， 每 个 随后 的 树 主要 用 被 先前 树 错 误 识 别 
的 数据 进行 训练 。 这 使 得 梯度 提升 更 少 地 集中 于 容易 预测 的 情况 并 更 多 地 集中 于 困难 的 情 
况 。 该 算法 训练 速度 快 且 表现 非常 好 ， 但 是 训练 数据 即使 出 现 小 的 变化 ， 也 会 在 模型 中 产 
生 彻底 的 改变 ， 因 此 可 能 会 产生 不 可 解释 的 结果 。 

3. 支持 向 量 机 

支持 向 量 机 (SVM) 基 于 统计 学 理论 而 提出 ， 是 机 器 学 习 中 一 种 大 放 光 彩 的 经 典 算法 。 

支持 向 量 机 算法 通过 给 予 严格 的 优化 条 件 获得 分 类 界线 ， 并 且 通 过 与 高 斯 核 等 核 函 
数 的 结合 ， 通 过 非 线性 映射 ， 把 样本 空间 映射 到 高 维 乃 至 无 穷 维 的 特征 空间 ， 使 得 原来 样 
本 空间 中 非 线 性 可 分 的 问题 转变 为 特征 空间 中 线性 可 分 的 问题 。 它 几乎 不 增加 计算 的 复杂 
性 ， 而 且 在 某 种 程度 上 避免 了 “ 维 数 灾难 ”， 训 练 较为 简单 ， 是 一 种 广泛 应 用 的 机 器 学 习 
方式 。 

4. 人 工 + 神 经 网 络 

人 工 + 神 经 网 络 算法 起 步 较 早 ， 但 是 发 展 坎坷 。 

在 20 世 纪 20 年 代 就 已 经 提出 了 人 工 神经 网 络 模型 以 及 关键 的 反 向 传播 算法 。 但 是 由 于 
受 当时 计算 机 运算 能 力 的 限制 ， 难 以 在 多 层 神 经 网 络 中 进行 训练 ， 通 常 都 是 只 有 一 层 隐 层 
节点 的 浅 层 模型 。 这 种 模型 的 神经 网 络 算法 比较 容易 出 现 过 训练 现象 ， 而 且 训 练 速度 比较 
慢 。 在 层次 比较 少 的 情况 下 ， 训 练 效果 往往 不 如 其 他 算法 。 

在 2006 年 ，Hinton 提 出 了 深度 学 习 算 法 ， 增 加 了 神经 网 络 的 层 数 和 一 些 处 理 技巧 。 在 
丰富 的 训练 数据 以 及 强劲 的 计算 机 运行 能 力 的 帮助 下 ， 神 经 网 络 的 能 力 大 大 提高 。 

目前 ， 深 度 学 习 模 型 在 目标 识别 、 语 音 识 别 、 自 然 语 言 处 理 等 领域 取得 了 突飞猛进 的 
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成 果 ， 是 目前 最 热门 的 机 器 学 习 方 法 ， 也 是 本 书 讲解 的 主要 内 容 。 但 是 也 有 使 用 前 提 ， 一 
是 深度 学 习 模型 需要 大 量 的 训练 数据 ， 才 能 展现 出 神奇 的 效果 ; 二 是 深度 学 习 对 计算 能 力 
要 求 更 高 。 在 有 些 领域 采用 传统 的 、 简 单 的 机 器 学 习 方法 可 以 很 好 地 解决 问题 ， 就 没 必要 
非得 使 用 复杂 的 深度 学 习 方法 。 


[1.2.4 550 


对 某 个 领域 进行 学 习 的 第 一 步 就 是 要 尽快 了 解 全 貌 以 搭建 出 整体 的 知识 体系 ， 然 后 在 
实践 中 不 断 提升 对 该 领域 的 认识 。 对 于 机 器 学 习 领 域 ， 整 体 的 知识 体系 如 下 。 

1. 数学 知识 

机 器 学 习 的 目标 是 通过 现 有 数据 构建 和 训练 模型 ， 用 于 数据 的 分 析 与 预测 。 计 算 机 能 
够 做 的 只 有 计算 ， 而 如 何 将 训练 过 程 抽象 为 数学 函数 就 是 需要 我 们 掌握 的 能 力 。 在 现 有 的 
经 典 算法 中 涉及 概率 统计 、 矩 阵 运算 、 微 积分 导数 等 数学 知识 。 对 于 这 些 知 识 学 过 最 好 ， 
没有 学 过 也 没关系 ， 本 书 会 讲解 在 实际 应 用 中 所 需要 的 原理 和 结论 ， 其 中 会 涉及 必要 的 公 
式 推 导 证 明 。 

2. 编程 语言 

Python 是 一 种 面向 对 象 的 解释 型 高 级 编程 语言 ， 众 多 的 机 器 学 习 框 架 都 支持 Python， 
因此 它 成 了 机 器 学 习 的 首选 语言 。 本 书 也 将 使 用 Python 作为 实现 语言 进行 讲解 ， 希 望 读 者 
已 经 掌握 了 Python 语言 。 

3. 经 典 机 器 学 习 理 论 和 基本 算法 

经 典 的 机 器 学 习 算 法 包括 线性 回归 、 逻 辑 回归 、SVM 支 持 向 量 机 、 神 经 网 络 算法 
等 ， 以 及 通过 各 种 基本 算法 处 理 数据 时 存在 的 正则 化 需求 、 过 拟 合 现象 等 基本 的 算法 特性 
和 适用 环境 。 本 书 将 对 这 些 基本 算法 进行 详解 并 通过 实例 来 说 明 这 些 算法 的 使 用 。 

4. 动手 实践 机 器 学 习 

掌握 了 机 器 学 习 的 基础 知识 后 ， 就 可 以 动手 实践 机 器 学 习 模 型 。 首 先 需 要 选择 一 个 
开源 的 机 器 学 习 框架 。 在 选择 机 器 学 习 框 架 方 面 的 主要 考虑 因素 就 是 哪个 框架 的 使 用 范围 
广 、 使 用 人 数 多 。 目 前 ，TensorFlow 由 于 由 谷歌 进行 开源 推广 且 有 着 大 量 的 开发 者 群体 ， 
更 新 和 发 布 速度 非常 快 ， 是 非常 不 错 的 选择 。 


B13 TensorFlow 简 介 qo 


TensorFlow 是 谷歌 公司 推出 的 机 器 学 习 开源 神器 ， 是 谷歌 基于 DistBelief 进 行 研发 的 
第 二 代 人 工 智能 学 习 系统 。DistBelief 是 谷歌 内 部 开发 和 使 用 的 机 器 学 习 框架 ， 但 是 它 严 
重 依赖 于 Google 内 部 硬件 ， 仅 适用 于 开发 神经 网 络 算法 等 ， 因 此 难以 广泛 使 用 。 谷 歌 在 
DistBelief 的 基础 上 ， 提 高 了 运算 效率 、 框 架 的 灵活 性 和 可 移植 性 ， 形 成 了 TensorFlow 框 
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架 。 目 前 ，TensorFlow 已 被 广泛 用 于 文本 处 理 、 语 音 识别 和 图 像 识别 等 多 项 机 器 学 习 和 深 
度 学 习 领 域 。 


主流 框架 的 对 比 


在 机 器 学 习 的 开源 框架 中 ，Google( 谷 歌 )、Microsoft( 微 软 )、Facebook( 脸 书 ) 和 
Amazon( 亚 马 进 ) 等 巨头 都 有 着 自己 的 机 器 学 习 框架 并 进行 了 一 定 程度 的 开源 。 此 外 ， 还 有 
伯克利 大 学 的 贾 扬 清 主导 开发 的 Caffe、 蒙 特 利 尔 大 学 Lisa Lab 团 队 开 发 的 Theano 以 及 其 他 
个 人 或 商业 组 织 贡 献 的 框架 。 可 以 说 ， 各 种 开源 的 深度 学 习 框 架 层 出 不 穷 。 

1. 基本 情况 

TensorFlow 是 Google 的 可 移植 机 器 学 习 和 神经 网 络 库 ， 可 扩展 性 强 。TensorFlow 对 
Python 有 着 良好 的 编程 语言 支持 ， 支 持 CPU、GPU 和 Google TPU 等 硬件 ， 并 且 已 经 拥有 各 
种 各 样 的 模型 和 算法 ， 在 深度 学 习 上 有 非常 出 色 的 表现 。 另 外 ，TensorFlow 由 谷歌 进行 主 
导 ， 在 文档 和 实例 方面 也 有 着 良好 的 支持 。 

MXNet 是 亚马逊 的 机 器 学 习 框架 ， 具 有 较 强 的 可 移植 性 和 可 扩展 性 ， 对 Python、R、 
Scala、Julia 和 C++ 等 编程 语言 有 着 不 同 程度 的 支持 。 

Deeplearning4j(DL4J) 是 一 个 专注 于 深度 神经 网 络 的 Java 库 ， 可 以 与 Hadoop 和 其 他 基于 
Java 的 分 布 式 框架 集成 。 

Microsoft Cognitive Toolkit(CNTKJ) 是 微软 的 开源 深度 学 习 框架 ， 支 持 Python 编程 语 
言 ， 拥 有 各 种 各 样 的 神经 网 络 模型 ， 并 且 支 持 强化 学 习 、 生 成 对 抗 网 络 等 ， 是 一 个 功能 强 
大 的 工具 。 但 是 由 于 交流 的 社区 小 ， 在 文档 和 实例 方面 的 学 习 资 料 很 少 。 

Caffe 深 度 学 习 项 目 最 初 是 一 个 用 于 解决 图 像 分 类 问题 的 框架 ， 后 来 逐步 成 长 为 一 个 
强大 的 机 器 学 习 框 架 。 但 是 由 于 其 创始 人 现 已 离开 项 目 ， 有 一 段 时 间 已 不 再 进行 更 新 。 该 
项 目的 下 一 步 进展 不 明确 ， 建 议 不 再 使 用 。 

Torch 是 Facebook 主 推 的 机 器 学 习 框架 ， 基 于 Lua 语 言 进行 开发 ， 广 泛 支 持 各 种 机 器 学 
习 模 型 和 算法 。 但 是 由 于 Lua 语 言 是 机 器 学 习 中 相对 冷门 的 语言 ， 因 此 增加 了 学 习 成 本 。 

Theano 由 蒙特 利 尔 大 学 机 器 学 习 研 究 所 (MILA) 创 建 。Theano 支 持 Python 语 言 ， 并 且 能 
够 支持 其 他 的 深度 学 习 框架 。 但 因为 它 由 研究 机 构 开 发 ， 在 API 方 面 并 不 完善 ， 若 要 写 出 
效率 高 的 Theano 框 架 ， 需 要 对 隐藏 在 框架 背后 的 算法 也 相当 熟悉 ， 所 以 它 只 在 研究 中 极为 
流行 ， 但 在 项 目 开发 方面 难度 相对 较 大 。 

Keras 由 Francis Chollet 编 写 和 维护 ， 基 于 Python 进行 编写 ， 能 够 运行 在 Theano 或 
TensorFlow 上 ， 可 以 将 它 看 成 对 Theano 或 TensorFlow 的 再 一 次 封装 。Keras 由 于 水 平 高 ， 
对 用 户 友好 ， 因 此 能 够 更 加 便捷 地 编写 卷 积 神经 网 络 、 递 归 神 经 网 络 等 机 器 学 习 模 型 。 
目前 ，TensorFlow 将 Keras 添 加 为 TensorFlow 核 心中 的 高 级 框架 ， 成 为 TensorFlow 的 默 
认 API。 

对 于 这 些 主要 的 机 器 学 习 框 架 ， 基 本 情况 的 对 比如 表 1.1 所 示 。 
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表 1.1 各 主流 框架 基本 情况 的 对 比 


开发 或 支持 


| 主要 开发 语言 


GitHub 地 址 
https://github.com/tensorflow/tensorflow 


MXNet Amazon Python, C++ | https:;//github.com/apache/incubator-mxnet 
Eclipse Python. Java | https://github.com/deeplearning4j/deeplearning4j 
CNTK Microsoft Python, C£ https://github.com/MicrosofU/CNTK 


页 扬 清 
Torch Facebook 


Python, C++ 


https://github.com/BVLC/caffe 
https://github.com/torch/torch7 


Theano 蒙特 利 尔 大 学 
个 人 ， 作 为 TensorFlow 
的 支持 库 


i 


Lua 
on 


2. 运行 性 能 


https://github.com/Theano/Theano 


https://github.com/keras-team/keras 


在 性 能 方面 ， 对 主流 框架 在 AlexNet 上 单 GPU 的 情况 进行 了 性 能 评测 '， 结 果 如 表 1.2 


所 示 。 


表 1.2 各 主流 框架 的 性 能 评测 


Library( 库 ) Class( 类 ) | 总 时 间 (ms) | 前 馈 时 间 (ms) | 反馈 时 间 (ms) 
CuDNN[R4]-fp16 (Torch) | cudnn.SpatialConvolution 25 46 
Nervana-neon-fp16 ConvLayer 25 52 
CuDNN[R4]-fp32 (Torch) | cudnn.SpatialConvolution 27 53 
TensorFlow conv2d [sl | 26 55 
Nervana-neon-fp32 ConvLayer 28 58 
fbfft (Torch) fbnn.SpatialConvolution |14 | 31 72 
Chainer Convolution2D 40 136 
cudaconvnet2 ConvLayer 177 42 135 
CuDNN[R2] cudnn.SpatialConvolution | 231 70 161 
Caffe (native) ConvolutionLayer 324 121 203 
Torch-7 (native) SpatialConvolutionMM 342 132 210 
CL-nn (Torch) SpatialConvolutionMM 963 388 574 
Caffe-CLGreenTea ConvolutionLayer 1442 210 1232 


可 以 看 出 ，TensorFlow 的 性 能 已 经 处 于 领先 水 平 。 
3. 受 欢迎 程度 


主要 的 机 器 学 习 框架 都 在 GitHub 上 进行 了 开源 。 截 至 2018 年 4 月 ， 流 行 的 机 器 学 习 框 


架 在 GitHub 上 的 情况 如 图 1.1 所 示 。 


1 ”参考 https://github.com/soumith/convnet-benchmarks。 
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图 1.1 主流 机 器 学 习 框 架 受 欢迎 程度 对 比 


从 中 可 以 看 到 ，TensorFlow 在 Watch 数量 、Star 数 量 、Fork 数 量 等 方面 都 完胜 其 他 
框架 。 

综合 来 说 ，TensorFlow 本 身 在 编程 语言 上 对 主流 的 Python 进行 支持 ， 并 且 能 够 支持 各 
种 硬件 平台 ， 能 够 采用 集中 部 署 和 分 布 式 部 署 方式 ， 能 够 部 署 在 移动 端 、 云 端 、 服 务 器 端 
等 不 同 的 应 用 环境 中 。 最 关键 的 是 它 由 Google 主 导 ，Google 强 大 的 人 工 智能 研发 水 平 ， 让 
大 家 对 Google 的 深度 学 习 框 架 充满 信心 。 而 且 Google 丰 富 的 项 目 经 验 ， 使 得 TensorFlow 能 
够 进行 快速 的 迭代 更 新 ，Google 的 工程 师 和 其 他 广大 的 开发 者 也 能 组 织 成 活跃 的 社区 ， 进 
行 积极 反馈 ， 形 成 良性 循环 ， 可 以 说 TensorFlow 框 架 是 我 们 进行 机 器 学 习 的 首选 。 


UE» TensorFlow 的 发 展 


TensorFlow 从 2015 年 开源 以 来 ， 不 断 地 迭代 更 新 ， 主 要 的 更 新 版 本 如 下 。 

2015 年 11 月 9 日 ，Google 在 GitHub 上 开源 了 TensorFlow。 

2016 年 4 月 13 日 ，TensorFlow 0.8 版 本 发 布 ， 支 持 分 布 式 计算 。 

2016 年 4 月 29 日 ， 开 发 AlphaGo 的 DeepMind 团 队 转 向 TensorFlow， 增 强 了 TensorFlow 的 
力量 。 

2016 年 5 月 12 日 ， 开 源 基 于 TensorFlow 的 最 准确 语法 解析 器 SyntaxNet。 

2016 年 6 月 27 日 ，TensorFlow 0.9 版 本 发 布 ， 增 强 了 移动 设备 支持 。 

2016 年 8 月 30 日 ，TF-Slim 库 发 布 ， 可 以 更 简单 、 快 速 地 定义 模型 。 

2017 年 2 月 15 日 ，TensorFlow 1.0 版 本 发 布 ， 提 高 了 框架 的 速度 和 灵活 性 。 

2017 年 8 月 17 日 ，TensorFlow 1.3 版 本 发 布 ， 将 Estimate 估 算 器 加 入 框架 。 

2017 年 11 月 2 日 ，TensorFlow 1.4 版 本 发 布 ， 将 Keras 等 高 级 库 加 入 核心 功能 。 

另外 ，TensorFlow 具 有 出 色 的 版 本 管理 和 细致 的 官方 文档 ， 活 跃 的 社区 也 在 不 断 促进 
TensorFlow 的 发 展 。 
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[1.3.3] 使 用 TensorFlow 的 公司 


谷歌 作为 TensorFlow 的 主导 公司 ， 在 自己 的 搜索 、Gmail、 翻 译 、 地 图 和 YouTube 等 产 
品 中 均 使 用 了 TensorFlow， 这 也 是 谷歌 DeepMind 人 工 智能 项 目的 AlphaGo 和 AlphaGo Zero 
的 底层 技术 。 同 时 ， 国 外 的 airbnb、ebay 和 Dropbox 等 公司 也 在 尝试 使 用 ， 国 内 的 京东 、 小 
米 等 公司 也 在 使 用 。 图 1.2 摘 自 TensorFlow 官 网 日 益 强大 的 公司 墙 。 


Aairbnb «Oi nVIDIA. 图 ED 
© oes SP Dropbox ebay 
Google Zt (inteD Canis 


mi ZTE repe y 


CIRT — Ò JOCOM MIR ZZ 
图 1.2 ”使 用 TensorFlow 的 公司 
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TensorFlow 站 建立 在 “巨人 ”的 肩膀 上 ， 它 的 正常 运行 需要 依赖 较 多 的 底层 工具 。 主 
要 的 安装 方式 有 三 类 : 一 是 通过 Python 包 管理 工具 安装 ， 二 是 通过 Java 安 装 ; 三 是 通过 源 
代码 进行 编译 安装 ， 由 于 当前 Python 是 进行 科学 计算 的 标 配 ， 因 此 我 们 通过 Python 包 管理 
工具 来 进行 安装 。 

TensorFlow 在 早期 只 支持 Linux 和 Mac 系统 ， 在 TensorFlow 0.12 及 后 续 版 本 中 才 添 
加 对 Windows 系 统 的 支持 。TensorFlow 的 安装 过 程 大 体 可 分 为 准备 Python 环 境 、 安 装 
沙 箱 环 境 与 安装 TensorFlow 三 步 。 接 下 来 ， 我们 逐步 实现 不 同 环境 下 TensorFlow 环 境 
的 搭建 。 
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[1.4.1] Windows 环 境 


在 官网 上 提供 了 5 种 安装 TensorFlow 的 方法 。 

1) Pip 安 装 : 在 本 地 环境 中 安装 TensorFlow， 在 安装 的 过 程 中 可 能 会 升级 以 前 安装 的 
了 Python 包 ， 这 会 影响 本 机 现 有 的 Python 程序 。 

2) Virtualenv 安 装 : 设置 一 个 独立 的 目录 ， 在 其 中 安装 TensorFlow， 这 样 不 会 影响 到 本 
机 上 任何 现 有 的 Python 程序 。 

3) Anaconda 安 装 : 在 本 机 中 安装 并 运行 Anaconda， 在 Anaconda 中 创建 虚拟 环境 来 安 
装 TensorFlow， 这 样 不 会 影响 本 机 上 现 有 的 Python 程序 。 

4) Docker 安 装 : 在 本 机 中 建立 一 个 与 本 机 上 所 有 其 他 程序 隔离 的 Docker 容 器 ， 在 该 容 
器 中 运行 TensorFlow。 

5) 从 源 代码 安装 : 通过 构建 pip 下 载 源码 来 安装 TensorFlow。 

由 于 Anaconda 是 一 个 使 用 Python 语言 编写 的 用 于 科学 计算 的 平台 ， 因 此 它 可 以 很 方 
便 地 解决 Python 版 本 、 第 三 方 包 安装 等 问题 。 为 了 后 续 实 际 开发 的 便捷 性 ， 推 荐 大 家 使 用 
Anaconda 方 式 进行 安装 。 

1. Anaconda 安 装 

Anaconda 支 持 Linux、Mac 和 Windows 系 统 ， 在 Windows 系 统 中 的 安装 步骤 如 下 。 

(1) 下 载 Anaconda 

从 Anaconda 官 网 (https://www.anaconda.com/download/) 选 择 对 应 的 版 本 进行 下 载 ， 
如 图 1.3 所 示 。 软 件 不 算 小 ， 大 约 有 500MB 。 如 果 遇 到 某 些 原 因 ， 也 可 以 选择 国内 的 镜 
像 地 址 进行 下 载 ， 比 如 清华 大 学 的 镜像 地 址 (https://mirrors.tuna.tsinghua.edu.cn/anaconda/ 


archive/)。 


Download Anaconda Distribution 


Version 5.01 | Release Date: October 25, 2017 


Download For: "a é A 


图 1.3 ”下载 Anaconda 
(2) 安装 Anaconda 
和 安装 其 他 软件 一 样 ， 如 果 没 有 什么 特别 的 需求 ， 基 本 选择 默认 安装 即 可 ， 如 图 1.4 
所 示 。 唯 一 需要 注意 的 是 ， 需 要 将 Python 3.6 添 加 到 系统 环境 变量 中 。 


a 
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" Advanced Installation Options 
E ) ANACONDA Customize how Anaconda integrates with Windows 


Advanced Options 


W] Add Anaconda to my PATH environment variable | 
Not recommended, Instead, open Anaconda with the Windows Start 

menu and select "Anaconda (64-bit)". This "add to PATH" option makes 

Anaconda get found before previously installed software, but may 

cause problems requiring you to uninstall and reinstall Anaconda. 


[V] Register Anaconda as my default Python 3.6 


This will allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


Anaconda, Inc, 


— -和 i —» 


1.4 安装 Anaconda 


(3) 验证 是 否 安装 成 功 
安装 完毕 后 ， 在 Windows 的 “开始 ”菜单 中 就 能 看 到 已 成 功 安装 的 Anaconda 了 ， 如 图 
1.5 所 示 。 


1^) Anaconda Navigator 
lla Anaconda Prompt 

二 Jupyter Notebook 

|. | Reset Spyder Settings 
69 Spyder 


图 1.5 验证 Anaconda 是 否 已 成 功 安装 
打开 Anaconda Prompt， 查 看 Anaconda 的 版 本 以 及 已 安装 的 第 三 方 依赖 包 ， 如 图 1.6 
所 示 。 


01 conda - version 
02 conda list 


E 


Midministrator?conda —-version 


Misers Midninistrator?conda 1 
# packages in environment at C:Wsers Midministrator Mnaconda3: 


# 
ipyw_jlab_nb_ext_conf 
alabaster 

anaconda 

anaconda-c lient 


lanaconda-navigator 


lanaconda-pro ject 


dc py36he6757f8 8 
< py36hcd87829 8 
a 36h8316238 2 
6 py36hd3655üc 8 

36hc720852 8 
py36h8b3bf89 8 


py36h8e79faa 1 
p936h9d85297 8 
h86391c4 4 
py36h35444c1. 8 
py36h81696a8. 1 
a .8. py36h79ab834 2 
: py36hd4cc5e8 1 
py36h6afi24b 0 
py36h7e685£7 9 


backports hutil get termi 
Ibeautifulsoup4 


hübe3b39 8 
hía776d2 1 


Anaconda 的 第 三 方 依赖 包 


NONOOOADHNNEOOHHANOO 


安装 NumPy、matpltlib、SymPy、scikit-image 等 常 


第 三 方 依赖 包 中 ， 可 以 看 到 已 
用 的 包 。 

(4) 配置 更 新 地 址 

由 于 Anaconda 默 认 的 代码 仓库 镜像 地 址 是 国外 的 镜像 地 址 ， 因 此 下 载 速度 比较 慢 。 
建议 将 镜像 地 址 改 为 清华 大 学 的 开源 软件 镜像 站 ， 对 Anaconda Prompt 进 行 配置 ， 如 
图 1.7 所 示 。 


ratorMinaconda3) C:\Jsers\Adninistrator>conda config —-add cha 
s .tuna.tsinghua.edu.cn/anaconda/pkgs/f ree/ 


trator Vinaconda3) C:NJsers Midninistrator?conda config - 


lu channel urls y 


配置 Anaconda 更 新 地 址 
添加 完成 后 ， 可 以 在 当前 配置 信息 中 查看 ， 输 入 : 


关注 channel URLs 字 段 内 容 是 否 已 成 功 添 加 清华 大 学 提供 的 镜像 地 址 ， 如 图 1.8 所 示 。 


ers idninistrat 


nirrors.tuna.tsinghua 


repo .continuun. io/pkgs/nain/win-64 


查看 Anaconda 更 新 地 址 


Anaconda 可 以 创建 自己 的 计算 环境 ， 这 样 可 以 将 TensorFlow 的 环境 与 其 他 环境 进行 隔 
离 ， 不 必 来 回 修改 各 种 环境 变量 ， 也 不 必 担 心 破坏 之 前 的 环境 。 创 建 步骤 如 下 所 示 。 

(1) 创建 Conda 计 算 环 境 

在 Anaconda Prompt 中 创建 一 个 名 为 tensorflow 的 沙 箱 环 境 ， 如 图 1.9 所 示 ， 输 入 : 


根据 不 同 版 本 的 Python 更 改 对 应 的 版 本 参数 。 在 创建 过 程 中 ， 如 果 出 现下 载 速度 慢 其 
至 不 成 功 的 情况 ， 可 查看 镜像 地 址 是 否 配置 成 功 。 


rs Adninistrator \Anac 


tadata 


Adninistrator\Anaconda 


vill be INSTALLED. 
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创建 沙 箱 环 境 
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创建 成 功 后 ， 可 以 打开 Windows 系 统 中 的 Anaconda Navigator， 单 击 左 侧 的 Environments， 


就 可 以 看 到 tensorflow 沙 箱 环 境 ， 如 图 1.10 所 示 。 


File Help 


Q ANACONDA NAVIGATOR 


会 Home T — 4 


Q | Installed ‘ 
市 root Name v T Descri ip 
tensorflow » certifi D Pythonr 
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Wii Learning 
E setuptools O Downloa 

图 1.10 ”查看 沙 箱 环境 
(2) 激活 tensorflow 沙 箱 环境 


如 图 1.1 所 示 ， 在 命令 行 中 继续 输入 : 


activate tensorflow 


图 1.11 激活 沙 箱 环境 
可 以 看 到 ， 用 户 名 的 前 面 有 <tensorflow> 标 识 。 这 实际 上 表明 我 们 已 经 更 换 到 名 为 
tensorflow 的 沙 箱 环 境 中 。 


当 不 使 用 tensorflow 时 ， 需 要 使 用 deactivate tensorflow 进 行 关闭 。 
3. 安装 TensorFlow 的 CPU 版 本 


TensorFlow 分 为 CPU 版 本 和 GPU 版 本 。 对 于 使 用 来 说 ， 主 要 区 别 在 于 运算 速度 ， 一 般 
来 说 GPU 速度 更 快 。 这 是 由 于 CPU 和 GPU 针对 的 用 途 不 一 样 ， 在 最 初 的 设计 上 也 不 一 样 。 
在 GPU 设计 上 用 于 图 形 图 像 的 处 理 ， 在 矩阵 运算 、 数 值 计算 ， 特 别 是 浮 点 和 并 行 计算 上 
能 优 于 CPU 设 计 上 数 百倍 的 性 能 。 在 机 器 学 习 中 ， 经 常会 用 到 许多 的 卷 积 运算 、 和 矩阵 运算 


等 ， 所 以 一 般 来 说 GPU 速度 更 快 。 但 是 ， 当 进行 计算 的 数据 集 较 小 时 ， 
不 大 ， 甚 至 由 于 数据 传输 的 问题 ，GPU 可 能 更 慢 。 

CPU 版 本 的 安装 更 简单 ， 我 们 先 讲解 CPU 版 本 的 安装 。 

(1) 使 用 pip 进 行 安装 

在 TensorFlow 的 沙 箱 环境 中 ， 使 用 pip 进 行 安装 ， 输 入 : 


pip install --ignore-installed --upgrade tensorflow 


两 者 的 速度 差别 并 


下 载 速度 可 能 会 比较 慢 ， 如 果 不 在 意 是 否 为 最 新 版 本 ， 则 建议 使 


安装 。 在 https://mirrors.tuna.tsinghua.edu.cn/tensorflow/ 网 页 中 找到 需要 安 


本 地 址 ， 例 如 : 


国内 镜像 地 址 进行 
装 的 TensorFlow 版 


EN 
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pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
https://mirrors.tuna.tsinghua.edu.cn/tensorflow/windows/cpu/tensorflow- 1.3.0rc0-cp36-cp36m- 
win. amd64.whl 


安装 成 功 后 ， 在 控制 台中 会 显示 安装 成 功 的 信息 ， 如 图 1.12 所 示 。 


图 1.12 安装 TensorFlow 


(2) 验证 是 否 成 功 

在 控制 台中 ， 输 入 : 

01 python 

02 >>> import tensorflow as tf 

03 >>> hello = tf.constant(Hello, TensorFlow!") 

04 >>> sess - tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow!' 

若 最 后 能 够 成 功 输 入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 开发 环境 的 
准备 工作 。 

(3) 集成 到 IDE 中 

Python 的 集成 开发 工具 很 多 ， 但 是 对 于 数据 处 理 来 说 ， 可 以 选用 Spyder， 因 为 我 们 安 
装 的 Anaconda 对 它 提 供 很 好 的 支持 。 

打开 Anaconda Navigator 界 面 ， 单 击 左 侧 的 Environments， 查 看 是 否 已 经 安装 Spyder。 
若 未 安装 ， 则 选中 复 选 框 ， 并 单 击 右 下 角 的 Apply 按 钮 进行 安装 ， 如 图 1.13 所 示 。 
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图 1.13 ”安装 Spyder 
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在 Anaconda Prompt 界 面 中 启动 tensorflow 沙 箱 环 境 ， 并 运行 Spyder( 如 图 1.14 所 
示 )， 输 入 : 


activate tensorflow 
Spyder 


MI 管理 员 : Anaconda Prompt - Spyder b= | E-e 


KC: Wsers idministrator naconda3> C: Wsers idministrator)activate tensorf lowCP 


《tensorf lowCPU) C:NJsers Mfidministrator5Spyder 


图 1.14 ”运行 Spyder 
等 待 一 会 儿 就 会 出 现 Spyder 界 面 ， 如 图 1.15 所 示 。 
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图 1.15 Spyder 界面 
其 中 ， 也 需要 验证 是 否 关联 了 tensorflow 沙 箱 环境 。 在 编辑 框 中 输入 如 下 代码 : 


01 import tensorflow as tf 

02 hello = tf.constant('Hello, TensorFlow") 
03 sess = tf.Session() 

04 print(sess.run(hello)) 


运行 后 ， 若 能 够 成 功 输 入 “b' Hello, TensorFlow!'”， 则 表示 配置 成 功 ， 如 图 1.16 
所 示 。 
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| 


In [1]: runfile('C:/Users/Administrator/.spyder-py3/temp.py', wdir-'C:/Users/ 
Administrator/.spyder-py3') 
b'Hello, TensorFlow!" 


In [2]: 


4 


图 1.16 ”运行 Spyder 


需要 注意 的 是 ， 一 定 要 启用 创建 的 tensorflow 沙 箱 环 境 ， 并 从 该 环境 中 打开 Spyder， 才 
能 够 关联 到 TensorFlow 的 开发 环境 ， 否 则 会 出 错 。 

4. 安装 TensorFlow 的 GPU 版 本 
由 于 使 用 GPU 进 行 机 器 学 习 运 算 时 ， 效 率 更 高 ， 因 此 接 下 来 我 们 讲解 如 何 安装 
tensorflow 的 GPU 版 本 。 

安装 时 需要 使 用 两 个 关联 程序 ， 分 别 是 CUDA 和 cuDNN。 由 于 TensorFlow 是 Google 开 
发 的 ，CUDA 和 cuDNN 是 NVIDIA 开 发 的 ， 因 此 在 安装 的 版 本 选择 和 顺序 上 非常 重要 ， 否 
则 会 出 现 安装 失败 的 情况 。 本 书 使 用 的 是 Python 3.6、TensorFlow 1.3、CUDA 8.0、cuDNN 
6.0。 下 面 详细 介绍 安装 过 程 。 

(1) 安装 CUDA 

由 于 TensorFlow 的 GPU 版 本 依赖 于 CUDA， 因 此 我 们 首先 查看 使 用 的 GPU 是 否 支持 
CUDA 加 速 ， 一 般 来 说 NVIDIA 都 是 支持 的 。 我 们 可 以 通过 官网 进行 查询 ， 也 可 以 通过 在 
NVIDIA 的 控制 面板 中 ， 单 击 “ 系 统 信息 ”进行 查询 。 在 “系统 信息 ”对 话 框 的 “组 件 ” 
选项 卡 中 找到 NVCUDA.DLL， 只 要 能 够 找到 NVCUDA.DLL 组 件 ， 就 代表 支持 CUDA， 如 
图 1.17 所 示 。 


系统 信息 下 M 


| NVIDIA 硬件 及 运行 该 硬件 的 系统 的 详细 信息 。 


显示 “| 组 件 
文件 名 文件 版 本 产品 名 称 S 
3D 设置 
| Lg) nvGaneS. dll 5.14.13.5598 NVIDIA 3D Settings Server 
E nvGameSR. dll 6. 14. 13.5598 NVIDIA 3D Settings Server 
S3 8. 17. 13.5598 NVIDIA CUDA 7.5.0 driver 2 
<S PhysX 09. 15.0428 NVIDIA PhysX [ 


图 1.17 ”CUDA 系 统 信息 


从 NVIDIA 官 网 可 以 下 载 CUDA， 在 https://developer.nvidia.com/cuda-toolkit-archive 上 
有 所 有 的 历史 版 本 。 由 于 TensorFlow 的 更 新 不 一 定 对 应 到 CUDA 的 最 新 版 本 ， 因 此 建议 下 
载 已 通过 验证 的 版 本 组 合 。 在 其 中 选择 对 应 的 操作 系统 、 硬 件 支持 类 型 、 操 作 系 统 版 本 和 
安装 类 型 后 ， 再 下 载 安装 文件 ， 如 图 1.18 所 示 。 


Select Target Platform @ 


Click on the green buttons that describe your target platform. Only supported 
platforms will be shown. 


Mac OSX 


Operating 
System 


Architecture & 


Version EJ m Server 2012 R2 


Server 2008 R2 


Installer Type 
e 
Download Installer for Windows 7 x86, 64 


The base installer is available for download below. 


> Base Installer Download [1.2 GB) $% 


Installation Instructions: 


1. Double click cuda 8.0.44 windows.exe 
2. Follow on-screen prompts 


图 1.18 CUDA 版 本 选择 


下 载 完 毕 后 ， 和 安装 其 他 软件 一 样 ， 如 果 没 有 什么 特别 的 需求 ， 基 本 选择 默认 安装 
即 可 。 

(2) 下 载 cuDNN 

cuDNN 是 连接 TensorFlow 和 CUDA 的 纽带 ， 我 们 可 以 从 NVIDIA 官 网 下 载 cuDNN， 
网 址 为 https://developer.nvidia.com/rdp/form/cudnn-download-survey。 要 先进 行 用 户 注 
册 并 填写 调查 问卷 ， 再 选择 与 上 一 步 安装 的 CUDA 版 本 相 匹 配 的 cuDNN 版 本 ， 如 图 1.19 
所 示 。 
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Download cuDNN v6.0 [April 27, 2017], for CUDA 8.0 


Download packages updated April 27, 2017 to resolve issues related to dilated com 
cuDNN User Guide 
cuDNN Install Guide 


cuDNN vó.0 Library for Linux 


cuDNN v6.0 L 


cuDNN v6.( 


cuDNN v6.0 


图 1.19 下 载 cuDNN 


(3) 配置 cuDNN 

下 载 euDNN 后 解压 ， 其 文件 夹 下 有 3 个 子 文件 来， 分别 是 bin、1lib 和 include。 找 
到 CUDA 的 安装 路 径 ， 若 未 做 修改 ， 则 一 般 的 路 径 是 C:\Program Files\NVIDIA GPU 
Computing Toolkit\CUDA\v8.0。 将 这 3 个 子 文件 夹 复制 到 该 目录 中 ， 与 CUDA 已 有 的 bin、 
lib 和 include 子 文件 夹 进行 合并 。 

查看 Windows 的 环境 变量 是 否 已 成 功 添加 相关 程序 路 径 。 在 “系统 变量 ”中 ， 找 到 

“Path” 变 量 ， 查 看 其 值 是 否 包含 CUDA 文 件 的 路 径 ， 例 如 : 

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\ix64 

C:\Program Files\NVIDIA GPU Computing ToolkiNCUDAW8.ONinclude 

CA Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin 

C:\Program Files\NVIDIA GPU Computing ToolkiNCUDAW8.ONibnvvp 

如 果 未 包含 ， 请 将 相关 路 径 添加 到 “Path” 变 量 中 。 

(4) 安装 GPU 版 本 

为 了 保证 使 用 的 环境 与 CPU 版 本 的 环境 相隔 离 ， 我 们 重新 创建 一 个 沙 箱 环境 ， 进 行 
GPU 版 本 的 安装 。 在 Anaconda Prompt 中 依次 输入 : 


01 conda create -n tensorflowGPU python=3.6 
02 activate tensorflowGPU 
03 pip install tensorflow-gpu--1.3.0 


下 载 速度 可 能 会 比较 慢 。 如 果 不 在 意 是 否 为 最 新 版 本 ， 可 以 使 用 国内 镜像 地 址 进行 安 
装 。 在 https://mirrors.tuna.tsinghua.edu.cn/TensorFlow/ 网 页 上 找到 需要 安装 的 TensorFlow 对 
应 版 本 的 地 址 ， 安 装 成 功 后 ， 在 控制 台中 会 显示 有 关 安 装 成 功 的 信息 。 

(5) 验证 是 否 成 功 

在 控制 台中 ， 输 入 : 


第 1 章 机 器 学 习 概述 


01 python 

02 >>> import tensorflow as tf 

03 >>> hello = tf.constant('Hello, TensorFlow!") 
04 >>> sess - tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow!" 


如 果 能 够 成 功 输入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 了 开发 环境 的 
准备 工作 。 
最 后 ， 参 照 安装 Spyder 开 发 环境 的 过 程 ， 对 Spyder 开 发 环境 进行 安装 。 


[1.4.2| Linux 环 境 


前 面 详 细 讲 解 了 Windows 环 境 下 TensorFlow 的 安装 过 程 。 在 Linux 环 境 下 ，TensorFlow 
的 安装 过 程 与 Windows 环 境 下 类 似 ， 分 为 三 步 : (1) 安 装 Anaconda; (2) 建 立 Anaconda 沙 箱 
环境 ，(3) 安 装 TensorFlow。 

(1) 安装 Anaconda 

首先 从 Anaconda 官 网 (https://www.anaconda.com/download/) 选 择 对 应 的 版 本 进行 下 载 。 

然后 打开 终端 ， 输 入 相应 的 命令 进行 安装 ， 例 如 : 


bash /home/TensorFlow/Downloads/Anaconda2-5.1.0-Linux-x86. 64.sh 


(2) 建立 Anaconda 沙 箱 环境 
重新 打开 终端 后 ， 输 入 conda 创 建 命令 ， 例 如 : 


conda create -n tensorflow python-3.6 

(3) 安装 TensorFlow 

首先 激化 创建 的 沙 箱 环境 ， 输 入 命令 : 

Source activate tensorflow 

然后 在 tensorflow 沙 箱 环 境 中 ， 使 用 pip 进 行 安装 ， 输 入 : 
pip install --ignore-installed --upgrade tensorflow 


完成 安装 后 ， 同 样 在 控制 台中 输入 如 下 代码 : 


01 python 

02 >>> import tensorflow as tf 

03 >>> hello = tf.constant('Hello, TensorFlow!") 
04 >>> sess = tf.Session() 

05 >>> print(sess.run(hello)) 

b'Hello, TensorFlow!' 


如 果 最 后 能 够 成 功 输入 “b' Hello, TensorFlow!'”， 则 表示 安装 成 功 ， 完 成 了 开发 环 
境 的 准备 工作 。 
需要 注意 的 是 ， 每 次 需要 激活 tensorflow 沙 箱 环境 后 才能 正常 运行 tensorflow 程 序 。 
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1.4.3 加 Se 


使 用 Mac OS 进 行 环境 配置 时 ， 可 以 对 照 Linux 下 的 安装 过 程 ， 首 先 安装 Anaconda， 然 
后 建立 Anaconda 沙 箱 环境 ， 最 后 完成 TensorFlow 的 安装 。 


shell $ conda create -ntensorflow 
shell $ source activate tensorflow 
shell (tensorflow)$ pip install | --ignore-installed --upgrade tensorflow 


| WE 常用 的 第 三 方 模块 T 


TensorFlow 的 一 大 特性 就 是 支持 大 量 的 第 三 方 模块 。 例 如 ， 在 运行 中 由 于 经 常会 处 理 
各 种 科学 计算 ， 因 此 会 使 用 NumPy; 为 了 处 理 图 像 、 音 频 、 自 然 语 言 等 ， 会 使 用 matplotlib 
scikit-image、librosa NLTK Keras 等 优秀 的 第 三 方 模块 。 在 实际 开发 环境 中 也 会 安装 常用 的 第 
三 方 模块 。 

1. NumPy 

NumPy 系 统 是 Python 的 一 种 开源 的 数值 计算 扩展 ， 用 来 存储 和 处 理 大 型 矩阵 运算 ， 比 
Python 自身 的 菊 套 列表 结构 要 高 效 得 多 ， 主 要 包括 N 维 数组 对 象 Array、 实 用 的 线性 代数 、 
傅 里 叶 变 换 和 随机 数 生成 函数 等 。 

2. matplotlib 

matplotlib 是 Python 中 最 常用 的 可 视 化 工具 之 一 ， 利 用 它 可 以 非常 方便 地 创建 各 种 类 型 
的 2D 图 表 和 一 些 基 本 的 3D 图 表 。 仅 使 用 几 行 代 码 ， 便 可 生成 绘图 、 直 方 图 、 功 率 谱 、 条 
形 图 、 错 误 图 和 散 点 图 等 。 

3. scikit-image 

scikit-image 是 图 像 处 理 和 计算 机 视觉 的 算法 集合 。 相 比 OpenCV 库 而 言 ，scikit-image 
是 一 个 精简 轻便 的 框架 且 易 于 安装 ， 非 常 适合 用 于 TensorFlow 中 图 像 的 预 处 理 。 

4. librosa 

librosa 是 Python 的 一 个 工具 包 ， 在 音频 信号 分 析 中 经 常用 到 ， 是 进行 音频 特征 提取 的 
第 三 方 库 。 

5. NLTK 

NLITK 是 一 个 高 效 的 Python 工具 ， 用 来 处 理 人 类 自然 语言 数据 。 它 包括 50 多 个 语料库 
和 词汇 资源 ， 并 能 够 很 方便 地 完成 对 词语 的 分 类 、 标 记 化 、 词 干 标记 、 解 析 和 语义 推理 等 
自然 语言 处 理 任务 。 

6. Keras 

Keras 原 本 是 基于 TensorFlow 和 Theano 进 行 的 模块 化 封装 ， 提 供 较为 上 层 的 API， 人 允 
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许可 配置 的 模块 ， 可 以 非常 容易 地 实现 深度 学 习 的 原型 。 后 来 ，TensorFlow 将 其 添加 到 
TensorFlow 核 心 的 高 级 别 框架 中 ， 成 为 TensorFlow 的 默认 API。 


E sans OO A 


本 章 主要 讲解 了 人 工 智 能 、 机 器 学 习 的 发 展 过 程 和 入 门 方法 。 对 比 了 目前 主流 的 机 器 
学 习 框 架 ， 介 绍 了 TensorFlow 的 优势 和 发 展 过 程 。 最 后 ， 详 细 讲 解 了 TensorFlow 开 发 环境 
的 准备 过 程 ， 以 及 在 实际 开发 过 程 中 常用 的 第 三 方 模块 。 


第 2 章 


TensorFlow 基 础 


第 1 章 介 绍 了 机 器 学 习 的 基础 知识 ， 
准备 了 TensorFlow 的 开发 环境 。 接 下 
来 ， 将 具体 讲解 机 器 学 习 算法 中 最 普遍 使 
用 的 学 习 框 架 TensorFlow， 并 通过 一 个 
TensorFlow 程 序 讲解 基本 概念 以 及 可 视 化 
方面 的 基础 知识 。 


|J TensorFlow 基 础 框架 


[2.1.1] 系统 框架 


虽然 TensorFlow 框 架 的 版 本 在 不 断 更 新 ， 但 是 其 系统 架构 并 没有 发 生根 本 性 的 改变 。 
它 以 不 同 功 能 需求 进行 分 层 处 理 ， 以 统一 接口 屏蔽 具体 实现 ， 从 而 集中 各 自 的 关注 层次 ， 
更 好 地 提升 TensorFlow 的 适用 性 ， 系 统 架构 如 图 2.1 所 示 。 


应 用 层 


H 


mx 


层 和 核心 层 。 
1. 应 用 层 
应 用 层 是 TensorFlow 框 架 的 最 上 层 ， 主 要 提供 了 机 器 学 习 相关 的 训练 库 、 预 测 库 以 及 

“对 Python、C+t++ 和 Java 等 编程 语言 的 编程 环境 ， 便 于 不 同 编程 语言 在 应 

调用 TensorFlow 核 心 功能 以 实现 相关 实验 和 应 用 。 可 以 将 应 用 

于 使 用 Python 等 语言 


2. 接口 层 


接口 


3. 核心 层 


核心 


层 和 图 计算 层 。 可 以 将 核心 层 更 


计算 。 


(1) 设备 层 
层 主要 包括 TensorFlow 在 不 同 硬件 设备 上 的 实现 ， 主 要 支持 CPU、GPU 和 Mobile 


设备 


训练 库 


meye 


图 2.1 ”系统 框架 ' 
从 中 可 以 很 明显 地 看 出 ，TensorFlow 系 统 框架 分 为 三 层 ， 


进行 编程 ， 主 要 实现 对 计算 图 的 构造 。 


层 是 TensorFlow 进 行 运算 学 习 的 最 重要 部 分 ， 包 括 设备 
E 解 为 系统 的 后 端 ， 它 对 前 端 提出 


由 上 而 下 依次 是 应 


用 层 、 接 


层 通 过 接口 层 


层 是 对 TensorFlow 功 能 模块 的 封装 ， 便 于 其 他 语言 平台 调用 。 


层 、 网 络 层 、 数 据 操作 
的 计算 命令 进行 具体 的 


等 不 同 设备 。 通 过 在 不 同 的 硬件 设备 上 实现 计算 命令 转换 ， 给 上 层 提供 统一 的 接 
程序 的 跨 平 台 功 能 


1 参考 https://tensorflow.google.cn/extend/architecture。 


， 实 现 
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(2) 网 络 层 

网 络 层 主要 包括 RPC(Remote Procedure Call， 远 程 过 程 调 用 ) 和 RDMA(Remote 
Direct Memory Access， 远 程 直接 内 存 访 问 ) 通 信 协 议 ， 主 要 实现 不 同 设备 间 的 数据 传输 
和 更 新 ， 这 些 协议 都 会 在 分 布 式 计 算 中 用 到 。 

(3) 数据 操作 层 

数据 操作 层 以 Tensor 为 处 理 对 象 ， 实 现 Tensor 的 各 种 操作 或 计算 。 这 些 操作 包括 
MatMul 等 计算 操作 ， 也 包含 Queue 等 非 计算 操作 。 

(4) 图 计算 层 

图 计算 层 中 主要 包括 分 布 式 计算 图 和 本 地 计算 图 的 实现 ， 主 要 实现 了 图 的 创建 、 编 
译 、 优 化 和 执行 等 部 分 。 


系统 的 特性 


TensorFlow 的 系统 架构 具备 许多 特性 ， 在 官网 中 着 重 介绍 了 它 的 高 度 灵活 性 (Deep 
Flexibility)、 真 正 的 可 移植 性 (True Portability)、 连 接 研究 与 产品 (Connect Research and 
Production)、 自 动 微分 (Auto-Differentiation)、 多 语言 选择 (Language Options) 以 及 最 大 化 性 
能 (Maximize Performance) 六 大 特性 。 

1. 高 度 灵 活性 

TensorFlow 不 是 一 个 死板 的 神经 网 络 库 ， 只 要 能 够 将 计算 表示 成 数据 流 图 ， 驱 动 计算 
的 内 部 循环 就 可 以 使 用 TensorFlow 来 实现 。 除 了 系统 提供 的 神经 网 络 中 的 常见 子 图 外 ， 还 
要 能 编写 TensorFlow 之 上 的 库 ， 这 样 可 以 极 大 地 减少 重复 代码 量 。 

2. 真正 的 可 移植 性 

TensorFlow 可 以 运行 在 CPU 和 GPU 上 ， 也 可 以 在 桌面 端 、 服 务 器 、 移 动 端 、 云 端 服务 
器 和 Docker 等 各 类 终端 上 运行 。 只 要 有 实现 机 器 学 习 的 想法 ， 无 需 任何 特定 的 硬件 就 能 完 
成 基础 的 尝试 。 

3. 连接 研究 与 产品 

可 以 让 产品 研究 人 员 更 快 地 将 想法 变 为 产品 ， 可 以 让 学 术 研 究 人 员 更 直接 地 共享 
代码 ， 具 有 更 大 的 科学 产 出 率 。 过 去 将 机 器 学 习 想 法 从 研究 转变 成 产品 时 ， 一 般 都 需 
要 大 量 的 代码 重 写 工作 ， 现 在 研究 人 员 在 TensorFlow 中 进行 新 算法 的 实验 ， 产 品 团队 用 
TensorFlow 来 训练 模型 并 实时 地 使 用 模型 为 真实 的 消费 者 服务 。 

4. 自动 微分 

TensorFlow 能 够 自动 完成 微分 计算 操作 。 在 基于 梯度 的 机 器 学 习 算 法 中 求 微分 是 重要 
的 步骤 ， 使 用 TensorFlow 完 成 机 器 学 习 ， 只 需要 定义 预测 模型 的 计算 结构 、 目 标 函 数 ， 然 
后 添加 数据 便 能 完成 微分 计算 。 
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5. 多 语言 选择 

TensorFlow 附 带 了 Python、C++ 和 Java 等 接口 来 构建 用 户 程序 ， 后 续 还 会 附带 Lua、 
JavaScript 或 R 等 。 

6. 最 大 化 性 能 

TensorFlow 对 线程 、 队 列 和 异步 计算 具有 一 流 的 支持 ， 可 以 让 你 最 大 限度 地 利用 可 用 
硬件 ， 即 使 拥有 具有 32 核 CPU 和 4 块 GPU 的 工作 站 ，TensorFlow 也 可 以 将 TensorFlow 中 的 计 
算 需 求 分 配 到 CPU 和 GPU 中 ， 实 现 同时 计算 的 效果 ， 从 而 最 大 化 地 利用 硬件 资源 。 


编程 模型 


TensorFlow 有 自己 的 设计 理念 和 编程 模型 ， 理 解 其 编程 模型 是 后 续 进 行 机 器 学 习 的 
基础 。 

TensorFlow 的 设计 理念 以 数据 流 为 核心 ， 当 构建 相应 的 机 器 学 习 模型 后 ， 使 用 训练 数 
据 在 模型 中 进行 数据 流动 ， 同 时 将 结果 以 反 向 传播 的 方式 反馈 给 模型 中 的 参数 ， 以 进行 调 
整 ， 使 用 调整 后 的 参数 对 训练 数据 再 次 进行 迭代 计算 。 

所 以 ， 可 以 将 TensorFlow 理 解 为 一 张 计算 图 中 “ 张 量 的 流动 ”， 其 由 Tensor 和 Flow 两 
部 分 组 成 。Tensor( 张 量 ) 代 表 了 计算 图 中 的 边 ，Flow( 流 动 ) 代 表 了 计算 图 中 因 节 点 所 做 的 操 
作 而 形成 的 数据 流动 。 

下 面 通过 一 张 基 础 的 数据 流 图 来 说 明 数 据 流 图 中 的 各 个 要 素 ， 如 图 2.2 所 示 。 

该 图 的 计算 过 程 是 回归 模型 计算 ， 在 图 中 数据 由 下 向 上 运行 ， 主 要 包括 输入 (Input)、 
重 塑 (Reshape)、ReLu 层 (ReLu Layer). Logit/Z(Logit Layer), Softmax7;jik. ZEN Mi(Cross 
Entropy)、 梯 度 (GradienD、SGD 训 练 (SGD Trainen) 等 步骤 。 

计算 过 程 从 输入 开始 ， 经 过 重 塑 成 为 统一 格式 ， 然 后 进行 下 一 步 运算 。 

在 ReLu 层 有 两 个 参数 : 所, 和 b,,。 使 用 ReLu 层 的 激活 函数 进行 非 线 性 计算 处 理 后 ， 进 
入 Logit 层 。 

在 Logit 层 有 另外 两 个 学 习 参 数 : 了 W, 和 4b,,， 用 于 存储 计算 的 结果 。 

ERIE fi HI SoftmaxZr TAE SE those 2858 t £6 RI RE 2). FRE, Flos SORS ETE 
RER A 43 i UL dg LH s RAR A AATE. RAE War bao WFIb.LUAR AE 
SUA RORKTESEPSBE, BüJeENASGDUIZE. 

TESGDJVIZ&rP, WIRE RER MEE KKE bm Wu. bI, REFRA 
进行 计算 ,不断 地 进行 迭代 学 习 。 
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图 2.2 ”数据 流 图 ” 


[2.1.4| 编程 特点 


TensorFlow 除 了 以 数据 流 为 核心 外 ， 在 编程 实现 过 程 中 还 具备 两 大 特点 。 

1. 将 图 的 定义 和 图 的 运行 完全 分 开 

使 用 TensorFlow 进 行 编程 与 使 用 Python 等 进行 编程 有 明显 的 区 别 。 在 使 用 Python 进行 
编程 时 ， 只 要 定义 了 相关 变量 以 及 运算 ， 在 程序 运行 时 就 会 直接 执行 相关 运算 得 到 结果 。 
但 是 ， 在 TensorFlow 中 ， 需 要 预先 定义 各 种 变量 ， 建 立 相关 数据 流 图 ， 在 数据 流 图 中 定义 
各 种 变量 之 间 的 计算 关系 ， 以 此 完成 图 的 定义 。 此 时 ， 图 只 是 运算 规则 ， 没 有 任何 实际 数 


1 ”参考 http://tensorfly.cn/images/tensors flowing.gif。 
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据 ， 需 要 把 运算 的 输入 数据 放 进去 后 ， 才 会 形成 输出 值 。 


2. 图 的 计算 在 会 话 中 执行 
TensorFlow 的 相关 计算 在 图 中 进行 定义 ， 而 图 的 具体 运行 环境 在 会 话 (Session) 中 。 只 


有 开启 会 话 后 ， 才 可 以 使 用 相关 数据 去 填充 节点 ， 这 样 才 能 开始 计算 ; 关闭 会 话 后 ， 就 不 
能 再 进行 计算 了 。 


为 了 更 直观 地 感受 TensorFlow 编 程 的 特点 ， 下 面 分 别 使 用 Python 的 编程 思路 和 


TensorFlow 的 编程 思路 来 实现 简单 的 数学 计算 。 


例如 ， 我 们 需要 计算 y=a*btc， 其 中 a=3，b=4，c=5。 
在 Python 中 ， 直 接 进 行 变量 以 及 运算 的 定义 ， 最 后 打印 输出 ， 具 体 实现 如 下 : 
01 a=3 

02 b=4 

03 c=5 

04 y=a*b+c 

05 print(y) 

运行 上 述 代码 后 会 直接 输出 最 终 的 计算 结果 17。 

在 TensorFlow 中 ， 我 们 也 输入 类 似 的 代码 : 

01 import tensorflow as tf 

02 a=3 

03 b=4 

04 c=5 

05 y=tf.add(a*b、 c) 

06 print(y) 

运行 上 述 代码 ， 具 体 输出 如 下 : 
Tensor("Add:0"、shape=()、dtype=int32) 


可 以 看 出 并 没有 输出 运算 结果 ， 而 是 输出 了 一 个 Tensor， 这 是 因为 我 们 仅仅 完成 了 图 


的 定义 ， 而 没有 具体 进行 运算 。 


如 果 需 要 在 TensorFlow 中 实现 该 运算 ， 就 需要 满足 TensorFlow 中 计算 的 几 个 阶段 ， 首 


先 定义 计算 图 ， 然 后 创建 会 话 ， 最 后 完成 计算 。 具 体 实现 如 下 : 


01 import tensorflow as tf #5 引用 TensorFlow 
02 # 创 建 图 
03 a=tf.constant(3、 tf.float32) # 定 义 常数 变量 a 


04 b=tf.constant(4、tf.float32) 

05 c=tf.constant(5、 tf.float32) 

06 y-tf.add(a*b. c) # 定 义 计算 公式 
07 print(y) 

08 # 创 建 会 话 

09 sess = tf.Session() 

10 x 

11 print( sess.run(y)) 

12 sess.close() # 关 闭会 话 


为 了 便于 对 比 ， 在 完成 图 的 创建 后 以 及 计算 完成 后 分 别 输出 了 结果 ， 详 细 的 代码 含义 
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将 在 后 续 章 节 中 讲解 ， 运 行 结果 如 下 : 


Tensor("Add_2:0"、shape=()、dtype=float32) 
17.0 


可 以 看 出 ， 只 有 在 会 话 中 完成 计算 后 才 会 输出 计算 结果 17。 

TensorFlow 采 用 这 样 的 设计 主要 是 因为 它 是 针对 机 器 学 习 的 框架 ， 消 耗 最 多 的 是 对 输 
入 数据 的 训练 。 这 样 设 计 的 好 处 在 于 当 进 行 计算 时 ， 图 已 经 确定 ， 计 算 就 是 一 个 不 断 迭 代 
优化 的 过 程 。 


有 2.2 TensorFlow 源 代码 结构 分 析 oo 


前 面 介绍 了 TensorFlow 的 特点 ， 为 了 更 深入 地 理解 TensorFlow 的 设计 ， 以 便 后 续 更 好 
地 掌握 各 种 机 器 学 习 模 型 ， 下 面 梳 理 一 下 TensorFlow 的 源 代码 。 


EEXI 源 代码 下 载 


TensorFlow 的 源 代码 在 GitHub 上 进行 了 开源 ， 在 GitHub 中 将 Tags 选 择 为 1.6 版 本 ， 如 图 2.3 
的 左 图 所 示 。 跳 转 到 1.6 版 本 后 ， 对 源 代 码 进 行 下 载 并 解压 到 本 地 ， 如 图 2.3 的 右 图 所 示 。 


Branch: master New pull request 


Switch branches/tags 


a 


Branches Tags 
| — 
v1.6.0 


v1.6.0-rc1 Clone with HTTPS © 
pl Use Git or checkout with SVN using the web URL. 


v1.6.0-rcO 

https://github.com/tensorflow/tensorflow.g | [b 
v1.5.0 
v1.5.0-rc1 Open in Desktop Download ZIP 


E23 ” 源 代码 下 载 图 ' 


| 2.2.2| TensorFlow 目 录 结 构 


我 们 以 TensorFlow 1.6 版 本 为 例 ， 看 看 其 代码 结构 。 


一 一 tensorflow # 主 目录 ， 核 心 文件 夹 
——third. party # 第 三 方 库 ， 主 要 包括 eigen3、gpus、hadoop 和 jpeg 等 


1 ” 源 代码 下 载 地 址 为 https://github.com/tensorflow/tensorflow/。 


— tools 

一 一 utiypython 

— ACKNOWLEDGMENTS 
— —ADOPTERS.md 

— —AUTHORS 

——BUILD 
——CODEOWNERS 

—— CODE. OF. CONDUCT.md 
——CONTRIBUTING.md 
——|SSUE. TEMPLATE.md 
——LICENSE 

— -README.md 
——RELEASE.md 

— WORKSPACE 
—arm_compiler.BUILD 
一 一 configure 

一 一 configure.py 
——models.BUILD 
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# 工 具 ， 最 新 功能 


## 版 权 说 明 
# 使 用 TensorFlow 的 人 员 或 组 织 列表 
#TensorFlow 作 者 的 官方 列表 


# 代 码 贡献 者 
# 行 为 准则 
# 贡 献 指 南 
州 SSUE 模 板 
# 版 权 许可 


# 版 本 更 新 说 明 


其 中 ， 最 重要 的 源 代码 保存 在 tensorflow 目 录 中 ， 目 录 结 构 如 下 : 


=ý 
一 一 CC 

一 一 compiler 
一 一 contrib 

一 一 core 

一 一 docs_src 

一 一 examples 
一 一 93doc 

一 go 

一 一 ava 

一 一 python 

一 一 stream_executor 
一 一 tools 

一 一 User_ops 

一 一 .clang-format 
一 一 BUILD 
——SECURITY.md 

—— init__.py 

一 一 tensorflow.bzl 

一 一 tf_exported_symbols.lds 
—tf_version_script.lds 
——workspace.bzl 


EE 重点 目录 


# 使 用 C++ 实现 的 训练 样 例 


# 封 装 了 常用 功能 的 高 级 API| 

# 使 用 C++ 实 现 的 主要 目录 

# 文 档 

# 各 种 示例 ， 已 调整 为 独立 的 模型 

术 源 代码 文档 ， 已 不 再 存放 在 此 文件 夹 中 


# 流 处 理 
# 工 具 


# 安 全 说 明 


下 面 介绍 tensorflow 目 录 中 的 几 个 重要 目录 。 


1. contrib 


contrib 目 录 中 保存 的 是 TensorFlow 中 经 常用 到 的 功能 ， 其 中 常用 的 几 个 功能 如 下 。 
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口 Android 

新 增加 的 功能 ， 主 要 提供 了 在 Android 系 统 上 对 TensorFlow 的 支持 。 

O cudnn rnn 

实现 基于 cuDNN 的 循环 神经 网 络 。 

O framework 

公共 框架 方法 ， 包 括 大 量 函 数 的 定义 ， 也 包括 一 些 被 废弃 的 函数 。 

O layers 

TensorFlow 中 分 层 的 实现 ， 主 要 包括 initializers.py、layers.py、optimizers.py、 
regularizers.py 和 summaries.py 等 文件 。 其 中 initializers.py 主 要 是 完成 对 变量 初始 化 的 函数 ， 
layers.py 主 要 是 关于 层 操 作 和 权重 偏 置 变量 的 函数 ，optimizers.py 主 要 包括 损失 函数 和 
global step 张 量 的 优化 操作 ，regularizers.py 主 要 包括 带 有 权重 的 正则 化 操作 。 

口 learn 
主要 是 进行 深度 学 习 的 API， 主 要 包括 训练 模型 和 评估 模型 、 读 取 批 处 理 数据 和 队列 
功能 的 封装 。 

口 slim 

TensorFlow-Slim(TF-Slim) 是 一 个 轻 量 级 的 库 ， 主 要 用 于 定义 、 训 练 和 评估 TensorFlow 
中 的 模型 。 

口 tensorboard 

主要 是 对 TensorFlow 训 练 图 表 可 视 化 工具 的 数据 记录 。 

2. core 

core 目 录 中 保存 的 是 TensorFlow 的 底层 实现 ， 是 C 语 言 文 件 ， 包 括 公 共 运 行 库 、 基 础 
功能 模块 和 核心 操作 等 。 下 面 介 绍 它 的 两 个 重要 功能 。 

O protobuf 
用 于 传输 时 的 数据 序列 化 。 谷 歌 公司 创建 了 一 种 新 的 数据 序列 化 工具 Protocol 
Buffer， 而 不 是 使 用 XML 等 方式 来 对 结构 化 数据 进行 序列 化 。 在 TensorFlow 中 就 是 使 用 
Protocol Buffer 来 完成 RPC 数 据 传递 的 。 

O framework 
主要 包括 设备 、 节 点 、 操 作 及 属性 等 基层 功能 模块 。 

3.examples 

examples 目 录 中 提供 了 深度 学 习 的 一 些 示 例 ， 特 别 是 ， 该 目录 中 的 android 目 录 是 在 
Android 系 统 中 实现 的 移动 端 应 用 。 但 是 某 些 示例 已 被 调整 到 独立 的 models 项 目 中 。 

4. python 

python 目 录 中 提供 了 机 器 学 习 中 经 常用 到 的 激活 函数 、 池 化 函数 、 损 失 函 数 以 及 循环 
神经 网 络 函 数 等 。 


第 2 章 TensorFlow 基 础 


B23 TensorFlow 基 本 概念 w 


在 前 面 章节 中 ， 我 们 介绍 了 TensorFlow 的 设计 理念 ， 了 解 到 具有 自身 特点 的 张 量 、 节 
点 、 占 位 符 和 会 话 等 概念 。 在 本 节 中 ， 将 对 这 些 基本 概念 进行 详解 。 


EEXI Tensor 


Tensor 即 张 量 ， 是 最 基本 的 概念 ， 也 是 TensorFlow 中 最 主要 的 数据 结构 。 张 量 用 于 在 
计算 图 中 进行 数据 传递 ， 但 是 创建 了 一 个 张 量 后 ， 不 会 立即 在 计算 图 中 增加 该 张 量 ， 而 需 
要 将 该 张 量 赋值 给 一 个 变量 或 占 位 符 ， 之 后 才 会 将 该 张 量 增加 到 计算 图 中 。Tensor 中 存储 
的 数据 类 型 如 表 2.1 所 示 。 


表 2.1 Tensor 中 的 数据 类 型 


数据 类 型 ”| Python 类 型 | 描述 
DT FLOAT 32 位 浮 点 数 
DT_DOUBLE 64 位 浮 点 数 
DT_INT64 64 位 有 符号 整 型 
DT_INT32 32 位 有 符号 整 弄 
DT INTI6 16 位 有 符号 整 型 
DT_INTS 8 位 有 符号 整 型 
DT UINT8 8 位 无 符号 整 型 
DT STRING "IAE KCIERU-E POR, KRASE T HR 


布尔 型 


DT_BOOL 


DT_COMPLEX64 由 两 个 32 位 浮 点 数组 成 的 复数 :实数 和 虚数 
DT QINT32 tf.gint32 用 于 量化 操作 的 32 位 有 符号 整 型 
DT_QINT8 用 于 量化 操作 的 8 位 有 符号 整 型 
DT QUINTS 用 于 量化 操作 的 8 位 无 符号 整 型 


张 量 的 生成 方式 有 很 多 种 ， 例 如 固定 张 量 、 相 似 张 量 、 序 列 张 量 和 分 布 函数 张 量 等 ， 
具体 实现 如 下 : 


01 import tensorflow as tf 


02 row-3.0 

03 col-4.0 

04 zero tsr- tf.zeros([row. col]) # 值 为 0， 指 定 维度 的 张 量 

05 ones tsr-tf.ones([row. col]) # 值 为 1， 指 定 维度 的 张 量 

06 filled tsr-tf.fil[[3. 4]. 2.0) # 指 定 填充 数值 2.0， 指 定 维度 的 张 量 

07 constant_tsr=tf.constant([1、 2、3]) # 已 知 常数 张 量 

08 zeros_similar=tf.zeros_like(constant_tsr) # 所 有 元 素 为 0， 与 constant_tsr 类 型 一 致 的 张 量 
09 ones similar-tf.ones like(constant tsr) # 所 有 元 素 为 1， 与 constant_tsr 类 型 一 致 的 张 量 
10 liner_tsr=tf.linspace(start=0.0、stop=2.0、num=3) # 创 建 指定 区 间 、 等 间距 的 张 量 


11 integer_seq_str=tf.range(start=0, limit=5, delta=1) # 创 建 指定 区 域 、 间 隔 的 张 量 
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12 randunif tsr-tf.random uniform([3. 4]. minval-0. maxval-2) # 创 建 均 匀 分 布 随机 数 的 张 量 
13 randnorm tsr-tf.random normal([3. 4]. mean-0.0. stddev-1.0) ” # 创 建 正 态 分 布 随机 数 的 张 量 
14 runcnorm_tsr=tftruncated_normal([3、4]、mean=0.0、stddev=1.0) “# 折 | 建 指定 边界 的 正 态 分 布 张 量 
其 中 ， 第 10 行 表示 在 0 和 2 之 间 ， 包 括 2， 等 间距 地 取 3 个 值 的 张 量 。 

第 11 行 表示 在 0 和 5 之 间 ， 不 包括 53， 间距 为 1 进行 取 值 后 组 成 的 张 量 。 

第 12 行 表示 从 最 小 值 minval( 包 括 ) 到 最 大 值 maxval( 不 包括 ) 取 均匀 分 布 随机 数 的 张 量 。 
第 13 行 表示 取 的 随机 数 符合 指定 均值 的 正 态 分 布 张 量 。 

第 14 行 表示 取 的 正 态 分 布 随机 数位 于 指定 均值 到 两 个 标准 差 之 间 的 张 量 。 

在 环境 中 查看 实际 输出 张 量 的 结果 ， 在 代码 中 增加 会 话 ， 具 体 实现 如 下 : 


01 print (zero tsrtensoris'. zero tsr) 

02 init op = tf.global variables initializer() 
03 sess - tf.Session() 

04 with tf.Session() as sess: 

05  sess.run(init op) 

06  print(zero tsris'. sess.run(zero tsr)) 
07 sess.close() 


有 关 会 话 的 相关 内 容 将 在 后 面 章 节 中 介绍 ， 在 此 只 查看 输出 结果 ， 如 图 2.4 所 示 。 


zero tsr tensor is Tensor("zeros 1:0", shape-(3, 4), dtype-float32) 
zero tsr is [[ 0. 9. ©. e.] 


[9. 9e. e. e.] 

[9. e. e. e.j] 

ones tsr is [[ 1. 1. 1. 1.] 
[1. 1. 1i. 1.] 

[1 do is i] 

filled tsr is [[2. 2. 2. 2.] 
[2. 2. 2. 2] 

[2. 2. 2. 2.]] 


constant tsr is [1 2 3] 

zeros similar is [0 e 0] 

ones similar is [1 1 1] 

liner tsr is [ 0. 1. 2.] 

integer seq str is [0 12 3 4] 

randunif tsr is [[ 0.0780561  0.03203201 1.27613521 90.23588586] 
[ 1.05239773 20.51797462 20.66219854 1.67205572] 

[ 1.98739982 1.79006505 1.03210258 1.83870769]] 

randnorm tsr is [[-1.78995657 1.57353461 -0.05314546 0.13447268] 
[-1.59547877 -0.75308609 -0.42012325 -0.29929173] 

[ 9.46082702 20.68286467 20.88711965 20.8505106 ]] 

runcnorm tsr is [[-0.35975182 20.77057737 -0.26349056 -1.34077311] 
[-1.01365018 20.9510414 -1.34152007 -1.58084857] 

[ 8.97464138 -0.1860951 -0.31274313 -0.32637995]] 


图 2.4 Tensor 的 输出 结果 


| 2.3.2| Variable 


Variable 即 变量 ， 一 般 用 来 表示 图 中 的 各 个 计算 参数 ， 包 括 和 矩阵 和 向 量 等 ， 它 在 计 


算 图 中 有 固 


习 算 法 。 


定 的 位 置 。 一 般 我 们 在 TensorFlow 中 通过 调整 这 些 变量 的 状态 来 优化 机 器 学 
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创建 变量 应 使 用 tf.Variable0 函 数 ， 通 过 输入 一 个 张 量 ， 返 回 一 个 变量 。 变 量 声 明 后 需 
要 进行 初始 化 才能 使 用 。 通 过 打印 张 量 和 变量 ， 可 对 比 它们 不 同 之 处 ， 具 体 实现 如 下 : 


01 #Variable 
02 tensor = tf.zeros([1. 2]) # 声 明 张 量 
03 m_var = tf.Variable(tensor) # 声 明 变量 


04 init op = tf.global variables initializer() 
05 sess - tf.Session() 
06 with tf.Session() as sess: 


07  print(tensoris'. sess.run(tensor)) ETEDIKER AS SR 

O8  print(m varfirstis'. sess.run(m var)) 村 J 印 变量 结果 ， 会 报错 
09  sess.run(init op) # 初 始 化 变量 

10  printm var second is'、 sess.run(m var)) 村 J 印 变量 结果 


其 中 ， 在 第 08 行 第 一 次 打印 变量 的 结果 ， 此 时 还 没有 对 其 进行 初始 化 ， 会 报错 。 
在 第 09 和 第 10 行 ， 对 所 有 变量 进行 了 初始 化 ， 这 样 能 够 成 功 打印 结果 ， 如 图 2.5 
所 示 。 


tensor is [[ 0. 80. 
Traceback (most recent call last): 


FailedPreconditiontrror: Attempting to use uninitialized value Variable 1 
[[Node: retval Variable 1 0 0 = Retval[T«OT FLOAT, index=ð, devices"/job:localhost/replica:0/task:0/device:CPU:0"](Variable 1)]] 


tensor is [[ 0. 9.]] 
m var second is [[ 09. 9.]] 


图 2.5 Variable 的 输出 结果 


EXE] Piacenolder 


Placeholder 即 占 位 符 ， 用 于 表示 输入 输出 数据 的 格式 ， 允 许 传 入 指定 类 型 和 形状 的 数 
据 。 占 位 符 仅 仅 声明 了 数据 位 置 ， 告 诉 系统 这 里 有 一 个 值 、 向 量 或 矩阵 等 ， 现 在 还 没 法 给 
出 具体 数值 。 占 位 符 通过 会 话 的 feed_dict 参 数 获取 数据 ， 在 计算 图 运行 时 使 用 获取 的 数据 
进行 计算 ， 计 算 完毕 后 获取 的 数据 就 会 消失 。 

例如 ， 给 出 一 维 数组 X[1.0,2.0] 和 Y[10.0,11.0] 中 对 应 值 相 加 的 计算 结果 ， 使 用 占 位 符 
的 具体 实现 如 下 : 

01 #placeholder 


02 x-tf.placeholder(tf.float32) # 声 明 占 位 符 x 
03 y-tf.placeholder(tf.float32) # 声 明 占 位 符 y 
04 z-tf.add(x. y) # 相 加 计算 


05 sess - tf.Session() 
06 with tf.Session() as sess: 
07  print(sess.run( [z]; feed dict-p«[1.0. 2.0]. y:[10.0. 11.0] )) # 获 取 数 据 进 行 计算 


运行 上 述 代 码 ， 计 算 结果 如 图 2.6 所 示 。 
| [array([ 11., 13.], dtype=float32)] 


图 2.6 ”Placeholder 的 输出 结果 
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占 位 符 和 变量 都 是 TensorFlow 计 算 图 的 关键 工具 ， 请 务必 理解 两 者 的 区 别 及 正确 的 使 
用 方法 。 


| 2.3.4| Session 


Session 即 会 话 ， 是 TensorFlow 中 计算 图 的 具体 执行 者 ， 与 图 进行 实际 的 交互 。 一 个 会 
话 中 可 以 有 多 个 图 ， 会 话 的 主要 目的 是 将 训练 数据 添加 到 图 中 进行 计算 ， 当 然 也 可 以 修改 
图 的 结构 。 

对 于 会 话 有 两 种 调用 方式 : 一 种 方式 是 明确 地 调用 会 话 的 生成 函数 和 关闭 函数 ， 有 具 
体 实现 如 下 。 


01 sess - tf.Session() 
02 sess.run(...) 
03 sess.close() 


使 用 这 种 调用 方式 时 ， 要 明确 调用 sess.close()， 以 释放 资源 。 如 果 程 序 异常 退出 ， 关 
闭 函 数 就 不 能 被 执行 ， 从 而 导致 资源 泄漏 。 
另 一 种 方式 是 利用 上 下 文 管理 机 制 自动 释放 所 有 资源 ， 具 体 实 现 如 下 : 


01 with tf.Session() as sess: 
02 sess.run(...) 


使 用 这 种 调用 方式 时 不 需要 再 调用 sess.close() 来 释放 资源 ， 在 退出 with 语 句 时 ， 会 话 
会 自动 关闭 并 释放 资源 。 


| 2.3.5| Operation 


Operation 即 操作 ， 是 TensorFlow 图 中 的 节点 ， 它 的 输入 和 输出 都 是 Tensor。 它 的 作 
用 是 完成 各 种 操作 ， 包 括 运算 操作 、 和 矩阵 操作 和 神经 网 络 构 建 操作 等 。 主 要 操作 如 表 2.2 
所 示 。 


表 2.2 ”主要 操作 
数学 运算 操作 Add, Sub. Mul, Div, Exp. Log. Greater. Less, Equal 
数组 运算 操作 Concat、 Slice, Split, Constant, Rank, Shape, Shuffle 
矩阵 运算 操作 MatMul、 MatrixInverse、MatrixDeterminant 
神经 网 络 构建 操作 Softmax、Sigmoid、ReLU、Convolution2D、MaxPool 
检查 点 操作 Save. Restore 
队列 和 同步 操作 Enqueue、Dequeue、MutexAcquire、MutexRelease 
张 量 控制 操作 Merge, Switch, Enter, Leave, NextIteration 


TensorFlow PAL EE T ALAR AAR ERRARE, EER 
是 提供 了 针对 神经 网 络 的 操作 ， 包 括 激 活 函数 、 池 化 函数 、 数 据 标准 化 函数 、 分 类 函数 、 
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损失 函数 、 卷 积 函数 和 循环 神经 网 络 等 ， 具 体内 容 将 在 后 续 章节 中 介绍 。 


|2.3.6] Queue 


Queue 即 队列 ， 也 是 图 中 的 一 个 节点 ， 是 一 种 有 状态 的 节点 。Queue 主 要 包含 入 列 
(enqueue) 和 出 列 (dequeue) 两 个 操作 。enqueue 操 作 返 回 计 算 图 中 的 一 个 Operation 节 点 ， 
dequeue 操 作 返 回 一 个 Tensor 值 ， 需 要 放 在 Session 中 运行 才能 获得 真正 的 数值 。 

根据 实现 方式 的 不 同 ， 队 列 主要 实行 了 两 种 队列 方式 : 一 是 按 入 列 顺序 出 列 的 队列 
FIFOQueue; 二 是 按 随 机 顺序 出 列 的 队列 RandomShuffleQueue。 

FIFOQueue 方 式 就 是 创建 一 个 先进 先 出 的 队列 ， 在 需要 读 入 的 训练 样本 有 序 时 使 用 ， 
例如 处 理 语音 、 文 字样 本 时 。 

例如 ， 创 建 一 个 长 度 为 10 的 队列 ， 并 将 一 些 数字 入 队 ， 然 后 逐一 出 队 ， 具 体 实 现 
如 下 : 

01 import tensorflow as tf 

02 q= tf.FlFOQueue(10, "float" # 声 明 顺 序 队 列 

03 init = q.enqueue many(([1.0, 2.0, 3.0,4.0,5.0,6.0],)) # 入 队 

04 with tf.Session() as sess: 

05  sessrun(init) ## 运 行 入 队 操 作 

06  quelen- sess.run(q.size()) 

07  foriinrange(quelen): 

08 print ('q,sess.run(q.dequeue())) # 输 出 出 队 值 


运行 上 述 代码 ， 就 能 看 到 有 序 的 输出 队列 ， 结 果 如 下 : 


q1.0 
q2.0 
q3.0 
q4.0 
q 5.0 
q6.0 


RandomShuffleQueue 方 式 就 是 创建 一 个 随机 队列 ， 在 出 队列 时 以 随机 的 顺序 输出 元 
素 。 随 机 队列 在 需要 读 入 的 训练 样本 无 序 时 使 有 用， 例如， 处 理 一 些 图 像样 本 时 。 

例如 ， 创 建 一 个 长 度 为 10 的 队列 ， 并 将 一 些 数 字 入 队 ， 然 后 逐一 出 队 ， 具 体 实现 
如 下 : 


01 import tensorflow as tf 

02 q-tf.RandomShuffleQueue(capacity-10, min after dequeue-O,dtypes-"float") # 声 明 队 列 
03 init = q.enqueue_many(([1.0, 2.0, 3.0,4.0,5.0,6.0],)) # 入 队 

04 with tf.Session() as sess: 

05  sessrun(init) ## 运 行 入 队 操 作 

06 quelen = sess.run(q.size()) 

07  foriinrange(quelen): 

08 print ('q,sess.run(q.dequeue())) # 输 出 出 队 值 
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其 中 ， 在 第 02 行 声明 了 一 个 队列 长 度 为 10、 出 队 后 最 小 长 度 为 0(、 数 据 类 型 为 oat 的 


随机 队列 。 运 行 上 述 代码 ， 就 能 看 到 输出 队列 的 结果 如 下 : 


时 ， 


同 理 


q1.0 
q4.0 
q60 
02.0 
q5.0 
q3.0 


在 随机 队列 中 ， 我 们 定义 了 队列 长 度 以 及 出 队 后 的 最 小 长 度 。 当 队列 长 度 等 于 最 小 值 
不 再 执行 出 队 操作 ， 如 果 此 时 还 要 求 执行 出 队 操作 ， 就 会 发 生 阻 断 ， 程 序 不 再 执行 。 
， 当 队列 长 度 等 于 最 大 值 时 ， 还 要 求 执行 入 队 操作 也 会 发 生 阻 断 。 

对 于 一 个 队列 长 度 为 0、 出 队 后 最 小 长 度 为 2 的 队列 ， 仍 然 入 队 6 个 数 ， 出 队 6 次 ， 具 


体 实现 如 下 : 


01 import tensorflow as tf 

02 q=tf.RandomShuffleQueue(capacity=10, min_after_dequeue=2,dtypes="float") # 声 明 队列 
03 init = q.enqueue_many(([1.0, 2.0, 3.0,4.0,5.0,6.0],)) 

04 run_options=tf.RunOptions(timeout_in_ms=10000) # 定 义 10s 超 时 
05 with tf.Session() as sess: 

06  sess.un(init) 

07 quelen = sess.run(q.size()) 

08  foriin range(quelen): 

09 try: 

10 print(q"""" sess.run(g.dequeue(),options-run options)) ”# 输 出 出 队 值 
11 except tf.errors.DeadlineExceededError: 

12 print('timeout") # 超 时 输出 


运行 上 述 代 码 ， 就 能 看 到 输出 队列 的 结果 如 下 : 


q1.0 
q6.0 
02.0 
q5.0 
timeout 
timeout 


QueueRunner 


QueueRunner 即 队列 管理 器 。 在 TensorFlow 运 行 时 ， 计 算 所 使 用 的 硬件 资源 ， 主 要 包 


括 CPU、GPU、 内 存 以 及 读 取 数据 时 计算 机 使 用 的 其 他 硬件 资源 。 因 为 涉及 磁盘 操作 ， 所 


以 速 
会 使 
读 写 


中 ， 
会 使 


度 远 低 于 前 者 。 因 此 ， 在 实际 操作 中 不 会 像 之 前 那样 在 主线 程 中 进行 入 队 操 作 ， 通 常 
用 多 个 线程 来 读 取 数 据 ， 然 后 使 用 一 个 线程 来 使 用 数据 。 使 用 队列 管理 器 可 管理 这 些 
队列 的 线程 。 
创建 QueueRunner 需 要 使 用 方法 tf.train.QueueRunner._init (queue, enqueue ops), H 
queue 代 表 指 定 的 队列 ，enqueue_ops 代 表 指 定 的 操作 ， 一 般 都 是 多 个 操作 ， 每 个 操作 
用 一 个 线程 。 
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声明 了 QueueRunner 列 队 管理 器 后 ， 还 需要 创建 线程 来 具体 执行 队列 管理 操作 。 使 用 
方法 tf.train.QueueRunner.create_threads(sess, coord=None, daemon=False, start=False) 来 完成 
线程 的 创建 。 

例如 ， 创 建 一 个 队列 管理 器 ， 进 行 两 个 操作 。 一 个 操作 完成 计数 器 的 自 增 ， 另 一 个 操 
作 将 计数 器 的 值 入 队 。 我 们 通过 出 队 观察 入 队 的 数值 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 
02 q= tf.FlIFOQueue(10, "float") 


03 counter = tf. Variable(0.0) # 汗 数 器 

04 increment. op = tf.assign_add(counter, 1.0) # 给 计数 器 加 1 

05 enqueue_op = q.enqueue(counter) # 将 计数 器 加 入 队列 

06 # 创建 QueueRunner， 有 两 个 操作 
07 qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 1) 

08 # 主 进程 


09 with tf.Session() as sess: 

10  sess.run(tf.global variables initializer()) 

11  qgr.create threads(sess, start- True) # 启动 队列 管理 器 操作 
12 foriinrange(8): 

13 print (sess.run(q.dequeue())) 

运行 上 述 代码 ， 实 际 输出 如 下 : 


7.0 

12.0 

14.0 

22.0 

27.0 

32.0 

183.0 

185.0 

ERROR:TensorFlow:Exception in QueueRunner: Session has been closed. 
ERROR:TensorFlow:Exception in QueueRunner: Session has been closed. 
Exception in thread QueueRunnerThread-fifo queue 2-fifo queue 2 enqueue: 


显然 ， 输 出 的 结果 并 非 自 然 数列 。 这 是 因为 计数 器 自 增 操作 和 入 队 操作 在 不 同 线程 
且 不 同步 ， 可 能 计数 器 自 增 操作 执行 了 很 多 次 之 后 ， 才 进行 了 一 个 入 队 操 作 。 

另 一 方面 ， 最 后 程序 报错 了 。 这 是 因为 主 程序 的 出 队 操 作 和 线程 中 的 入 队 操 作 是 异 
步 的 。 当 出 队 结 束 后 ， 主 程序 结束 ， 自 动 关 闭 了 会 话 。 但 是 入 队 线 程 并 没有 结束 ， 所 以 
程序 报错 。 如 果 显 式 地 采用 sess.run(0) 和 sess.close() 方 法 ， 则 整个 程序 最 后 会 产生 阻 断 ， 


Coordinator 


在 前 面 中 使 用 QueueRunner 时 ， 由 于 入 队 和 出 队 由 各 自 的 线程 完成 ， 且 未 进行 同步 
通信 ， 因 此 导致 程序 无 法 正常 结束 。 为 了 实现 线程 间 的 同步 ， 使 用 Coordinator( 协 调 器 ) 
来 处 理 。 

在 使 用 QueueRunner.create_threads() 创 建 线程 时 ， 指 定 一 个 协调 器 。 当 主线 程 完成 操 


i 
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作 后 ， 使 用 Coordinatorrequest_stop() 方 法 ， 通 知 所 有 的 线程 停止 当前 线程 ， 并 等 待 其 他 线 
程 结束 后 返回 结果 。 
下 面 对 2.3.7 节 中 的 QueueRunner 示 例 进行 重 构 ， 加 入 协调 器 。 具 体 实现 如 下 : 


01 import tensorflow as tf 
02 q= tf.FlIFOQueue(10, "float") 


03 counter = tf. Variable(0.0) L2ESCI 

04 increment. op = tf.assign add(counter, 1.0) # 给 计数 器 加 1 

05 enqueue op = q.enqueue(counter) # 将 计数 器 加 入 队列 
06 coord-tf.train.Coordinator() # 定 义 协调 器 

07 qr=tftrain.QueueRunner(q, enqueue_ops=[increment_op, enqueue op]* 1) 

08 # 主 线程 


09 with tf.Session() as sess: 
10  sess.run(tf.global variables initializer()) 
71 *tar.create threads(sess, start- True) 


12 queue thread-qr.create threads(sess,coord-coord,start- True) # 指 定 协调 器 
13  foriin range(8): 

14 print (sess.run(q.dequeue())) 

15  coord.request stop() # 通 知 线程 关闭 
16  coord.join(queue thread) # 等 待 线程 结束 


与 2.3.7 节 的 代码 进行 对 比 ， 我 们 注释 掉 第 11 行 的 原 有 队列 管理 器 创建 语句 。 修 改 为 第 
12 行 的 队列 管理 器 语句 ， 指 定 对 应 的 线程 协调 器 。 

对 于 线程 的 协调 ， 使 用 coord 进 行 。 如 第 15 行 ， 通 知 其 他 线程 关闭 ， 第 16 行 ， 等 待 其 
他 线程 结束 。 

运行 上 述 代 码 ， 实 际 输出 如 下 : 


通过 这 样 的 实现 ， 在 主 进程 结束 后 ， 其 他 线程 也 可 以 相应 地 结束 ， 不 会 再 出 现 会 话 已 
结束 的 程序 错误 。 


有 2.4 第 一 个 TensorFlow 示 例 A 


前 面 介绍 了 TensorFlow 的 系统 框架 和 特点 ， 下 面 通过 一 个 简单 的 程序 来 直观 感受 
TensorFlow 的 编写 和 运行 。 
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m 典型 应 用 


j 章 节 中 介绍 了 一 些 最 基础 的 TensorFlow 程 序 ， 但 是 TensorFlow 本 身 被 设计 用 于 分 
的 数据 ， 极 少 用 于 常数 的 计算 。 一 个 典型 的 TensorFlow 程 序 需要 进行 的 步骤 可 以 分 
为 以 下 四 步 : 加 载 训练 数据 、 构 建 训练 模型 、 进 行 数据 训练 、 评 估 和 预测 。 
对 于 这 四 大 步骤 ， 在 TensorFlow 的 具体 编程 过 程 中 可 以 细 分 为 如 下 流程 。 

1. 加 载 训练 数据 

数据 是 机 器 学 习 处 理 的 对 象 ， 加 载 训练 数据 是 机 器 学 习 的 第 一 步 ， 可 以 细 分 为 如 下 
流程 。 

(1) 生成 或 导入 样本 数据 集 

所 有 的 机 器 学 习 都 是 对 数据 的 处 理 ， 依 赖 于 样本 数据 集 。 

(2) 归 一 化 数据 

导入 的 样本 数据 各 种 各 样 ， 一 般 来 说 都 不 符合 TensorFlow 希 望 处 理 的 数据 样式 ， 所 以 
需要 转换 数据 格式 以 满足 TensorFlow。 大 部 分 机 器 学 习 算 法 希望 的 输入 样本 数据 是 归 一 化 
数据 。 在 TensorFlow 中 有 对 应 的 归 一 化 数据 处 理 函 数 ， 例 如 : 


data= tf.nn.batch_norm_with_global_normalization() 

(3) 划分 样本 数据 集 为 训练 样本 集 和 测试 样本 集 

训练 样本 集 用 于 机 器 学 习 过 程 中 的 模型 训练 ， 测 试 样本 集 用 于 对 构建 的 机 器 学 习 模 型 
进行 测试 。 一 般 来 说 ， 这 两 个 数据 集 包含 不 同 的 数据 。 

2. 构建 训练 模型 

构建 训练 模型 是 指 构建 TensorFlow 中 图 的 过 程 ， 涉 及 图 中 使 用 的 所 有 变量 以 及 运算 规 
则 ， 可 以 细 分 为 如 下 流程 。 

(1) 初始 化 超 参数 

在 机 器 学 习 中 经 常 要 有 一 系列 的 常量 参数 ， 例 如 学 习 率 、 迭 代 次 数 或 者 其 他 固定 参数 ， 
我 们 称 之 为 超 参数 。 一 般 情 况 下 ， 我 们 会 一 次 性 初始 化 所 有 的 机 器 学 习 参 数 ， 例 如 


01 learning_rate=0.001 FIE 
02 training_epochs=1000 E23] Sd 
(2) 初始 化 变量 和 占 位 符 


机 器 学 习 的 过 程 就 是 根据 样本 数据 集 不 断 优 化 权重 值 的 过 程 。TensorFlow 通 过 占 位 符 
设置 数据 节点 ， 并 在 训练 过 程 中 调整 这 些 变量 的 值 。 
TensorFlow 中 有 常量 节点 、 变 量 节点 和 占 位 符 等 ， 例 如 : 


01 a=tf.constant(3、 tf.float32) # 常 量 节点 

02 b= tf.placeholder(tf.float32) # 占 位 符 

03 c= tf. Variable(0.0) # 变 量 节点 

(3) 定义 模型 结构 

定义 模型 结构 主要 是 针对 数据 设计 或 使 用 不 同 的 机 器 学 习 算 法 ， 这 部 分 也 是 我 们 后 续 


EN 
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解 的 重点 ， 例 如 线性 模型 ; 

y = tf.matmul(W. x data) + b 

(4) 定义 损失 函数 

损失 函数 指定 预测 值 与 实际 值 之 间 的 差距 。 损 失 函 数 可 以 是 TensorFlow 实 现 的 常见 损 
失 函 数 ， 也 可 以 是 自 定义 的 函数 。 常 见 的 损失 函数 有 Sigmoid 交 又 焙 、Softmax 交 叉 燃 等 ， 
例如 线性 模型 中 自 定 义 的 损失 函数 : 


loss = tf.reduce_mean(tf.square(y - y_data)) # 损 失 函 数 


3. 进行 数据 训练 

TensorFlow 中 的 数据 训练 是 指使 用 训练 集中 的 数据 ， 对 设计 的 模型 图 进行 计算 的 过 
程 ， 可 以 细 化 为 以 下 流程 。 

(1) 初始 化 模型 

初始 化 模型 主要 完成 对 计算 图 的 运算 环境 的 初始 化 ， 包 括 创 建 计算 图 实例 、 对 占 位 符 
等 进行 赋值 ， 例 如 : 


et 


01 init ztf.global variables initializer() 3 初始 化 所 有 变量 
02 with tf.Session() as sess: 
03  sess.un(init) # 变 量 初始 化 


(2) 加 载 数 据 并 进行 训练 

训练 的 过 程 就 是 从 样本 数据 中 提取 数据 并 在 计算 图 中 计算 的 过 程 ， 例 如 : 

01 feed = (xxx S. y_:y_s} 

02 for i in range(steps): 

03 sess.un(train step. feed dict-feed) 

4. 评估 和 预测 

评估 和 预测 是 对 机 器 学 习 模型 学 习 效 果 的 评价 。 一 般 通 过 对 训练 样本 集 和 测试 样本 集 
的 评估 ， 确 定 学 习 模型 是 过 拟 合 还 是 欠 拟 合 ， 调 优 后 进行 发 布 和 预测 新 的 未 知 数据 ， 可 以 
细 化 为 以 下 流程 。 

(1) 评估 机 器 学 习 模型 

对 机 器 学 习 模型 的 评估 主要 有 平均 准确 率 、 识 别 的 时 间 和 1loss 下 降 变化 等 指标 。 

(2) 调 优 超 参数 

大 部 分 时 候 ， 我 们 会 不 断 调整 机 器 学 习 模型 的 超 参数 来 重复 训练 模型 ， 以 获得 效果 最 
佳 的 学 习 模型 。 

(3) 预测 结果 

机 器 学 习 模型 的 最 终 目 的 是 预测 新 的 未 知 数据 的 结果 。 

在 后 面 的 章节 中 ， 将 针对 这 些 过 程 进行 讲解 ， 构 建 自己 的 机 器 学 习 模型 。 
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运行 TensorFlow 示 例 


前 面 我 们 讲解 了 一 个 典型 应 用 所 要 进行 的 步骤 ， 接 下 来 运行 TensorFlow 官 方 提供 的 


个 示例 。 


TensorFlow 示 例 代码 同样 在 GitHub 中 进行 了 开源 ，TensorFlow 1.3 及 之 前 的 版 本 都 


存放 在 tensorflow 目 录 的 examples 子 目录 中 ，1.4 及 之 后 的 版 本 就 存放 在 单独 的 目录 中 !。 我 
们 下 载 了 与 TensorFlow 版 本 一 致 的 示例 代码 版 本 。 
在 官方 示例 代码 中 ， 有 一 个 对 MNIST 数 据 集 进 行 处 理 的 示例 。MNIST 是 一 个 入 门 级 


的 计算 
Institute 


R HH 


1 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 由 美国 国家 标准 与 技术 研究 所 (National 
of Standards and Technology，NIST) 提 供 ， 其 训练 集 由 250 个 不 同人 手写 的 数字 构 
P50% 是 高 中 学 生 ，50% 是 人 口 普查 局 的 工作 人 员 。 


下 面 以 1.4 版 本 的 TensorFlow 为 例 ， 讲 解 如 何 运行 MINST 的 官方 示例 代码 。 


将 
Spyder? 


下 载 的 models 文 件 解压 ， 在 其 officialvmnist 目 录 下 就 是 我 们 需要 运行 的 代码 。 使 用 
「 开 目录 中 的 mnistpy 文 件 。 


直接 运行 该 文件 ， 会 直接 链接 到 https://storage.googleapis.com/cvdf-datasets/mnist/ 以 
下 载运 行 所 需 的 数据 集 。 如 果 无 法 正常 下 载 ， 可 以 手动 链接 到 http://yann.lecun.com/exdb/ 
mnist/， 下 载 以 下 四 个 文件 : 

t10k-images-idx3-ubyte.gz 

t10k-labels-idx1-ubyte.gz 

train-images-idx3-ubyte.gz 

train-labels-idx1-ubyte.gz 

对 于 mnist.py 文 件 也 需要 做 相应 的 修改 。 一 方面 将 数据 来 源 修 改 为 下 载 后 保存 到 本 
地 的 地 址 ， 例 如 C:\mnist_data。 另 一 方面 ， 由 于 TensorFlow 的 可 视 化 工具 TensorBoard 在 


Window: 


s 系 统 下 有 错误 ， 因 此 只 能 正确 读 取 C 盘 下 的 可 视 化 文件 ， 将 过 程 记录 文件 也 存储 


在 C 盘 中 ， 例 如 Ciogmnist_ model。 对 mnistpy 的 具体 修改 如 下 : 


01 parser.add argument( 


'--data dir'. 

typezstr. 

stdefault-'/tmp/mnist data. # 原 数据 地 址 ， 注 释 
default='C:\mnist_data'、 ERST Hb RR 
help-'Path to directory containing the MNIST dataset") 


07 parser.add argument( 


'--model dir'. 

type-str. 

stdefault-'/tmp/mnist model, # 原 记录 数据 存放 位 置 ， 注 释 
defaultz'CNogWmnist model. # 修 改 记录 数据 存放 位 置 
help=The directory where the model will be stored.") 


直接 运行 该 文件 ， 运 行 过 程 如 图 2.7 所 示 。 


1 ， 源 代码 地 址 为 https:/Wgithub.com/TensorFlow/models。 


Python*Tens 


In [1]: runfile('D:/I&& /notes/2018tensorflowll28 553] /models-1.4.0/official/mnist/mnist.py', 
wdirz'D:/ /notes/2018tensorflowlllz3 53] /models-1.4.0/official/mnist') 
INFO:tensorflow:Using default config. 

INFO:tensorflow:Using config: (' model dir': '/tmp/mnist model', ' tf random seed': None, 

* save summary steps': 100, ' save checkpoints steps': None, ' save checkpoints secs': 600, 
' session config': None, ' keep checkpoint max': 5, ' keep checkpoint every n hours': 10000, 
' log step count steps': 100, ' service': None, ' cluster spec': 
«tensorflow.python.training.server lib.ClusterSpec object at 0x0000000013202E48», ' task type': 
'worker', ' task id': 0, ' master » ' is chief': True, ' num ps replicas': 6, 

* num worker replicas': 1} 

download filepath is Xs C: Wmnist dataWXtrain-images-idx3-ubyte 

download filepath is Xs C:Wmnist dataWMtrain-labels-idx1-ubyte 

INFO:tensorflow:Create CheckpointSaverHook. 

INFO:tensorflow:Saving checkpoints for 1 into /tmp/mnist modelWmodel.ckpt. 
INFO:tensorflow:train accuracy - 0.08 

INFO:tensorflow:loss - 2.3133812, step - 1 

INFO:tensorflow:global step/sec: 4.72161 

INFO:tensorflow:train accuracy - 0.485 (21.179 sec) 

INFO:tensorflow:loss = 0.32802442, step = 101 (21.178 sec) 

INFO:tensorflow:global step/sec: 4.86188 

INFO:tensorflow:train accuracy = 0.63666666 (20.569 sec) 

INFO:tensorflow:loss - 0.216316, step - 201 (20.568 sec) 


图 2.7 ”MNIST 运 行 过 程 


在 后 续 章节 中 将 逐步 讲解 具体 的 代码 实现 。 

为 了 更 直观 地 看 到 TensorFlow 的 继续 学 习 过 程 ，TensorFlow 自 带 了 TensorBoard 这 一 强 
大 的 可 视 化 工具 。 针 对 该 例 ， 我 们 使 用 TensorBoard 查 看 效果 。 

在 Anaconda Prompt 中 启用 TensorBoard， 输 入 相应 的 命令 ， 具 体 如 下 : 


01 activate tensorflowCpu # 启 用 tensorflow 沙 箱 环境 
02 tensorboard —-logdir C:\log\mnist_model # 可 视 化 训练 过 程 


执行 该 命令 后 ， 就 会 出 现 正常 启动 的 提醒 信息 ， 如 下 所 示 : 


TensorBoard 0.4.0 at http://USER-20151007LN:6006 (Press Ctrl+C to quit) 


在 浏览 器 中 访问 本 地 计算 机 的 6006 端 口 ， 例 如 http://USER-20151007LN:6006， 就 能 成 
功 打开 TensorBoard 界 面 ， 如 图 2.8 所 示 。 
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图 2.8 TensorBoard 界 面 


第 2 章 TensorFlow 基 础 


B25 TensorBoard 可 视 化 qo 


TensorBoard 是 TensorFlow 自 带 的 一 个 强大 的 可 视 化 工具 。 在 TensorFlow 的 代码 实现 
中 ， 只 要 将 所 需 保存 的 数据 放置 到 summary operations 中 ， 并 运行 所 有 的 summary 节 点 ， 最 
后 将 输出 的 数据 都 保存 到 本 地 磁盘 中 ， 就 可 以 使 用 TensorBoard 进 行 可 视 化 查看 。 详 细 的 
实现 过 程 将 在 后 续 章节 中 讲解 。 

2.4 节 讲解 了 TensorBoard 的 启动 ， 本 节 将 详细 讲解 TensorBoard 的 可 视 化 功能 。 
TensorBoard 中 自 带 了 8 种 可 视 化 : SCALARS, GRAPHS, IMAGES, AUDIO, 
DISTRIBUTIONS、 HISTOGRAMS、PROJECTOR 和 TEXT。 

口 SCALARS( 标 量 ) 

展示 训练 过 程 中 准备 率 、 损 失 值 、 权 重 、 偏 差 值 等 的 变化 情况 。 

O GRAPHS( 计 算 图 ) 

展示 训练 过 程 中 的 计算 数据 流 图 ， 可 以 展示 每 个 节点 的 计算 关系 以 及 各 个 设备 上 消耗 
的 内 存 和 时 间 等 。 

口 IMAGES( 图 片 ) 

展示 训练 过 程 中 记录 的 图 片 。 

口 AUDIO( 音 频 ) 

展示 训练 过 程 中 的 音频 。 

O DISTRIBUTIONS( 数 据 分 布 图 ) 

展示 训练 过 程 中 记录 的 数据 的 分 布 图 。 

口 HISTOGRAMS( 直 方 图 ) 

展示 训练 过 程 中 记录 的 数据 的 直方 图 。 

口 PROJECTOR( 投 影 分 布 ) 

之 前 的 版 本 为 Embeddings。 展 示 训练 过 程 中 数据 的 投影 分 布 ， 用 于 在 二 维 或 三 维 空间 
对 高 维 数据 进行 探索 。 

口 TEXT( 文 本 ) 

新 增加 的 功能 ， 显 示 保 存 的 一 小 段 文本 。 


| 2.5.1 scALARS 面 析 


打开 TensorBoard 时 默认 直接 进入 SCALARS 面 板 ， 并 且 默 认 使 用 .* 正则 表达 式 显示 
所 有 图 像 。 在 面板 的 顶部 导航 栏 中 只 展示 能 够 可 视 化 展示 的 模块 ， 其 他 模块 则 会 收 起 到 
INACTIVE 中 ， 如 图 2.9 所 示 。 
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TensorBoard SCALARS GRAPHS PROJECTOR INACTIVE 
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图 2.9 SCALARS 面 板 


SCALARS 面 板 的 左边 有 对 应 的 处 理 选项 。 

口 Show data download links: 显示 数据 的 下 载 链 接 。 可 以 把 TensorBoard 绘 图 用 的 
数据 下 载 下 来 ， 单 击 后 在 图 的 右 下 角 可 以 看 到 下 载 链接 ， 下 载 格式 支持 CSV 和 
JSON。 

O Ignore outliers in chart scaling: 是 否 排除 异常 点 ， 默 认为 选中 状态 。 

口 Tooltip sorting method: 用 于 显示 每 个 run 对 应 点 的 值 的 显示 顺序 ， 有 default、 
descending( 降 序 )、ascending( 升 序 ) 和 nearest 四 个 选项 。 

O Smoothing: 绘图 时 曲线 的 平滑 程度 ，0 表 示 不 平滑 处 理 ，1 表 示 最 平滑 ， 默 认 值 是 
0.6。 一 般 采 用 默认 值 。 如 果 不 进行 平滑 处 理 ， 有 些 曲 线 波动 很 大 ， 难 以 看 出 趋势 。 

O Horizontal Axis: 绘图 时 横 轴 的 设置 ， 有 STEP、RELATIVE 和 WALL 三 种 设置 。 其 
中 STEP 是 默认 选项 ， 指 横 轴 显示 的 是 训练 迭代 次 数 ， RELATIVE 指 相对 时 间 ， 相 
对 于 训练 开始 的 时 间 ， 也 就 是 训练 用 时 ，WALL 指 训练 的 绝对 时 间 。 

O Runs: 列 出 记录 的 不 同 ran， 可 以 选择 只 显示 某 个 或 某 几 个 。 

SCALARS 面 板 中 右边 的 绘图 显示 了 各 个 单个 值 的 变化 趋势 。 每 张 图 的 左下 角 都 有 三 


个 小 图 标 : 第 一 个 表示 查看 大 图 ， 第 二 个 表示 是 否 对 y 轴 对 数 化 ， 第 三 个 表示 如 果 拖 动 或 
缩放 坐标 轴 ， 就 会 重新 回 到 原始 位 置 。 如 果 图 中 的 某 一 段 需 要 放大 查看 ， 可 以 用 鼠标 框 选 


以 进 


行 放大 处 理 。 
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ERE GRAPHS 面 板 


GRAPHS 面 板 是 理解 模型 逻辑 最 常用 的 面板 。 在 机 器 学 习 的 神经 网 络 模型 很 复杂 且 包 


含 很 多 层 时 ， 该 
以 显示 训练 时 每 个 节点 的 用 时 、 耗 费 的 内 存 大 小 以 及 参数 ， 如 图 2.10 所 示 。 
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图 2.10 GRAPHS 面板 


GRAPHS 面 板 分 为 左 侧 功 能 区 和 右 侧 显示 图 
其 中 ， 左 侧 功能 区 中 对 应 的 处 理 选项 如 下 。 
口 Fitto screen: 将 图 缩放 直至 适合 屏幕 。 
Download PNG: 将 图 保存 到 本 地 。 
Run: 显示 不 同 训练 过 程 的 结果 。 
Session runs: 显示 不 同和 迭代 步 数 时 的 结果 。 


[X 


üuaaua 


j 板 能 展示 出 你 所 构建 的 网 络 整体 结构 ， 显 示 数 据 流 的 方向 和 大 小 ， 也 可 


Color: 对 数据 流 图 进行 不 同方 式 的 着 色 。Structure 为 默认 方式 ， 指 对 整个 数据 流 


图 的 结构 着 色 ; Device 指 训练 过 程 中 使 用 不 同 设备 进行 着 色 ; Compute time 指 显 


示 节 点 的 计算 时 间 ; Memory 指 显示 节点 的 内 存 消 耗 。 


口 Graph: 针对 右 侧 显示 图 区 中 各 类 图 示 的 说 明 。 


右 侧 显示 图 区 是 我 们 分 析 的 重点 ， 默 认 显 示 的 图 分 为 两 部 分 : 主 图 (Main Graph) 和 辅 
助 节点 (Auxiliary Node)。 其 中 ， 主 图 显示 的 是 网 络 结构 ， 辅 助 节点 显示 的 是 初始 化 、 训 练 


和 保存 节点 等 。 


对 于 图 中 的 节点 ， 可 以 平移 、 缩 放 、 拖 动 、 自 动 平移 到 节点 位 置 。 单 击 节点 后 ， 会 在 
右上 角 的 卡片 中 显示 详情 ， 包 括 节点 的 输入 、 输 出 和 参数 等 ， 如 图 2.11 所 示 。 双 击 某 个 节 
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点 或 者 让 


图 中 节点 之 间 的 连 线 表示 节点 之 间 的 依赖 关系 ， 分 为 两 种 链接 方式 ;第 一 
依赖 (data dependency)， 在 图 中 使 
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shape 
add 


击 节 点 右上 角 的 + 可 以 展开 查看 其 中 的 情况 ， 也 可 以 对 齐 进行 缩放 。 
[ max. poolin... | gradients 
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图 2.11 ”conv2d 界 面 


实心 箭头 (solid arrow) 表 示 两 个 张 量 直接 的 操作 ， 连 


线 越 粗 ， 说 明 两 个 节点 之 间 流 动 的 张 量 越 多 ， 另 一 种 是 控制 依赖 (control dependency)， 在 
图 中 使 用 点 线 箭头 (dotted line) 表 示 。 


IMAGES 面 板 


示 的 是 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 图 片 的 样子 ， 


IMAGES 面 板 展 
所 示 。 
Runs 
L| 


'eate a tag grou x input reshape 


| input reshape/input/image/0 


test 
step 990 (Fri Dec 01 2017 21:51:46 GMT+0800) 


圆 
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如 图 2.12 


| 2.5.4| AUDIO 面 板 
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AUDIO 面 板 展 示 的 是 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 的 音频 数据 。 


| 2.5.5 DisTRIBUTIONS 面 板 


DISTRIBUTIONS 面 板 用 平面 方式 表示 特定 层 在 激活 前 后 、 权 重 和 偏 置 的 数据 分 布 ， 


如 图 2.13 所 示 。 
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图 2.13 DISTRIBUTIONS 面板 


BJJ HSTOGRAMS 面 板 


HISTOGRAMS 面 板 用 立体 的 方式 表示 特定 层 在 激活 函数 前 后 、 权 重 和 偏 置 的 数据 分 


布 ， 如 图 2.14 所 示 。 
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EE Pnoscronais 
PROJECTOR 面 板 表示 数据 的 投影 分 布 ， 用 于 在 二 维 或 三 维 空间 对 高 维 数据 进 


索 ， 如 图 2.15 所 示 。 
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该 面板 分 为 左 侧 、 中 间 、 右 侧 三 部 分 ， 其 中 左 侧 是 功能 区 、 中 间 为 显示 


图 2.15 PROJECTOR 面 板 


据 筛选 区 。 该 面板 左 侧 的 对 应 处 理 选 项 如 下 。 
O 选择 降 维 方式 ， 有 TSNE、PCA 和 CUSTOM 三 种 降 维 方式 。 
O 图 像 显示 方式 ;可 以 在 二 维和 三 维 间 切 换 。 
O Perplexity: 困惑 度 。 手 动 调 整 相 关 参 数 ， 比 较 不 同 的 概率 分 布 或 概率 模型 。 
O Learningrate: 学 习 率 。 手 动 调整 相关 参数 ， 分 析 学 习 过 程 。 
在 该 面板 的 右 侧 可 以 采用 正则 表达 式 来 匹配 相关 数据 ， 直 观 地 查看 各 个 数据 之 间 的 距 


离 关系 。 


BE TT 1 


本 章 主 要 讲解 了 TensorFlow 的 基础 知识 ， 包 括 基 础 框架 、 编 程 模型 和 基本 概念 ， 旨 在 
让 读者 理解 TensorFlow 先 构建 计算 机 再 进行 实际 运算 的 符号 式 编程 特性 ， 并 通过 运行 示例 
直观 感受 TensorFlow 的 编写 、 运 行 和 可 视 化 。 
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TensorFlow 进 阶 


前 面 介绍 了 TensorFlow 机 器 学 习 的 基 
础 知识 ， 也 提 到 了 TensorFlow 的 典型 应 用 
需要 经 历 加 载 训 练 数据 、 构 建 训练 模型 、 
进行 数据 训练 、 评 估 和 预测 四 步 。 本 章 将 
针对 这 四 大 步骤 进行 介绍 。 


E a Ó 


在 TensorFlow 中 加 载 数据 的 方式 一 共有 三 种 : 预 加 载 数据 、 填 充 数据 以 及 从 CSV 文 件 
读 取 数 据 。 


[3.1.1] 预 加 载 数据 


预 加 载 数据 就 是 在 TensorFlow 图 中 定义 常量 或 变量 来 保存 所 有 数据 ， 例 如 ; 

01 a-tf.constant([1,2]) 

02 betf.constant([3,4]) 

03 y=tf.add(a,b) 

因为 常量 会 直接 存储 在 数据 流 图 的 数据 结构 中 ， 所 以 在 训练 过 程 中 这 个 结构 体 可 能 会 
被 复制 多 次 ， 从 而 导致 消耗 大 量 内 存 。 


EXE] 填充 数据 


TensorFlow 提 供 的 数据 填充 机 制 允许 在 TensorFlow 的 计算 图 训练 过 程 中 ， 将 数据 填充 
到 任意 张 量 中 。 可 通过 会 话 的 run0 函 数 中 的 feed_dict 参 数 获取 数据 ， 例 如 : 


01 x=tf.placeholder(tf.float32) # 声 明 占 位 符 
02 y-tf.placeholder(tf.float32) 
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03 z=tf.add(x,y) 

04 x_data=[1.0,2.0] # 生 成 数据 

05 y_data=[10.0,11.0] 

06 init op = tf.global variables initializer() 

07 sess - tf.Session() 

08 with tf.Session() as sess: 

09 print(sess.run( [z]feed dict-(x:x data,y:y. data) )) # 获 取 数 据 进 行 计算 


当 数 据 量 大 时 ， 填 充 数据 的 方式 也 存在 消耗 内 存 的 缺点 。 


[3.1.3 CSV 文 件 该 取 数 据 


TensorFlow 从 文件 中 读 取 数据 的 方式 主要 有 两 种 ， 一 种 是 直接 从 原始 文件 中 读 取 数 
据 ， 另 一 种 是 将 原始 文件 格式 转换 为 TensorFlow 定 义 的 TFRecords 格 式 后 再 进行 读 取 。 
TensorFlow 提 供 了 如 下 对 应 方法 。 

O class tf. TextLineReader: 读 取 文件 中 的 一 行文 本 ， 返 回 两 个 Tensor 对 象 ， 如 

(key,value)。 
O class tf.WholeFileReader: 读 取 整个 文件 ， 返 回 两 个 值 ， 分 别 是 文件 名 称 和 文件 
内 容 。 

O class tf.IdentityReader: 以 key 和 value 的 形式 输出 一 个 work 队 列 。 

O classtf.FixedLengthRecordReader: 从 二 进 制 文件 中 读 取 固定 长 度 的 记录 。 

口 class tf.TFRecordReader: 读 取 TFRecords 格 式 的 文件 。 

对 于 从 文件 中 读 取 数 据 ， 首 先 使 用 读 取 器 将 数据 读 取 到 队列 中 ， 然 后 从 队列 中 获取 数 
据 并 进行 处 理 。 下 面 以 读 取 CSV 格 式 的 文件 来 讲解 TensorFlow 从 源 文 件 中 直接 读 取 数 据 的 
具体 过 程 。 

1. 创建 队列 

TensorFlow 提 供 了 队列 的 创建 方法 : 


tf.train.string input producer(string tensor, num_epochs=None, shuffle=True, seed-None, 
capacity=32, namezNone). 


其 中 ，string_tensor 是 读 取 的 文件 名 列表 ，num_epochs 是 文件 的 训练 次 数 ，shuffle 表 示 
是 否 对 文件 进行 乱 序 处 理 。 需 要 注意 的 是 ， 返 回 队列 的 队列 管理 器 与 文件 读 取 器 的 线程 是 
分 开 的 。 

从 airline.csv 文 件 中 读 取 数 据 ， 创 建 队列 的 具体 实现 如 下 : 


01 import tensorflow as tf 

02 file name string-"airline.csv" # 要 读 取 的 CSV 格 式 的 文件 名 

03 filename queue = tf.train.string input producer([fle name. string]) # 创 | 建 队列 

2. 创建 读 取 器 获取 数据 

在 TensorFlow 中 ， 针 对 不 同 的 文件 格式 ， 提 供 了 不 同 的 文件 读 取 器 。 在 文件 读 取 器 中 
提供 了 read() 方 法 ， 用 于 获取 文件 内 容 和 文件 的 表征 值 key， 从 而 将 内 容 转换 为 张 量 ， 用 于 
TensorFlow 的 解析 。 
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例如 在 图 3.1 中 ，airline.csv 文 件 中 的 每 行 数据 都 包含 6 个 浮 点 数据 。 


1948. 000008, 1. 213999987, 0. 243000001, 0. 145400003, 1. 414999962, 0. 611999989 
1949. 000008, 1. 353999972, 0. 25999999, 0. 218099996, 1. 383999944, 0. 559000015 
1950, 1. 569000006, 0. 277999997, 0. 315699995, 1. 388000011, 0. 573000014 

1951, 1. 947999954, 0. 296999991, 0. 393999994, 1. 549999952, 0. 56400001 

1952, 2. 265000105, 0. 310000002, 0. 35589999, 1. 802000046, 0. 574000001 

1953, 2. 730999947, 0. 321999997, 0. 359299988, 1. 925999999, 0. 711000025 

1954, 3. 025000095, 0. 335000008, 0. 402500004, 1. 963999987, 0. 776000023 

1955, 3. 562000036, 0. 349999994, 0. 396100014, 2. 115999937, 0. 827000022 

1956, 3. 979000092, 0. 361000001, 0. 382200003, 2. 434999943, 0. 800000012 

1957. 000364, 4. 420000076, 0. 379000008, 0. 304500014, 2. 707000017, 0. 921000004 
1958. 000968, 4. 563000202, 0. 391000003, 0. 328399986, 2. 70600009, 1. 067000031 
1959. 000961, 5. 385000229, 0. 425999999, 0. 385600001, 2. 845999956, 1. 082999945 
1960, 5. 553999901, 0. 441000015, 0. 319299996, 3. 088999987, 1. 480999947 

1961, 5. 465000153, 0. 460000008, 0. 307900012, 3. 121999979, 1. 735999942 

1962, 5. 824999809, 0. 485000014, 0. 378300011, 3. 184000015, 1. 925999999 

1963, 6. 875999928, 0. 505999982, 0. 418000013, 3. 263000011, 2. 040999889 

1964, 7. 822999954, 0. 537999988, 0. 516300023, 3. 411999941, 1. 9396999979 

1965, 9. 119999886, 0. 56400001, 0. 587899983, 3. 622999907, 2. 256999969 

1966. 000826, 10. 51200008, 0. 586000025, 0. 536899984, 4. 073999882, 2. 742000103 
1967. 000017, 13. 02000046, 0. 621999979, 0. 444299996, 4. 710000038, 3. 563999891 
1968. 000962, 15. 26099968, 0. 666000009, 0. 305200011, 5. 217000008, 4. 767000198 
1969. 000236, 16. 312999753, 0. 731000006, 0. 233199999, 5. 568999767, 6. 511000156 


图 3.1 airline.csv 文 件 
对 于 该 文件 中 数据 的 读 取 ， 分 为 创建 读 取 器 、 获 取 数 据 和 解析 数据 三 个 步 又。 
对 于 CSV 文 件 中 数据 的 读 取 ， 使 用 TextLineReader 来 创建 读 取 器 。 
使 用 读 取 器 的 read() 方 法 来 获取 数据 。 
对 于 数据 的 解析 ， 需 要 根据 读 取 的 CSV 文 件 的 数据 格式 和 数据 类 型 来 定义 格式 。 然 后 
使 用 decode_csv0 方 法 来 解析 内 容 。 具 体 实现 如 下 : 


01 reader = tf.TextLineReader() HERIT 
02 key,value = reader.read(filename queue) # 获 取 数据 
03 record defaults = [[1.0],[1.0], [1.0], [1.0], [1.0], [1.0]] # 定 义 数据 形式 


04 col1, col2, col3, col4, col5, col6 = tf.decode csv(value, record_defaults=record_defaults) 

其 中 ， 第 03 行 根据 读 取 文 件 的 数据 类 型 构造 对 应 的 数据 类 型 ， 而 且 必 须 是 list 形 式 。 

第 04 行 将 每 一 行 读 取 的 内 容 (value) 按 照 数据 类 型 (record_defaults) 解 析 到 张 量 coll、 
col2、col3、col4、col5 和 col6 中 。 

3. 处 理 数据 

在 此 对 获取 的 数据 进行 打印 输出 。 需 要 注意 的 是 ， 由 于 队列 管理 器 与 文件 阅读 器 的 
线程 是 相互 独立 的 ， 因 此 需要 先 启用 队列 ， 再 使 用 线程 协调 器 来 管理 这 两 个 线程 。 具 体 
实现 如 下 : 


01 with tf.Session() as sess: 


02 ” # 线 程 协 调 器 
03 coord -tf.train.Coordinator() 
O4 ”# 启 动 线程 


05 threads = tf.train.start queue runners(coord-coord) 

06 is second read-0 

07 line name-bytes(96s:1' 96 file name string, encoding-'utf8") 

08  print(line1 name) 

09 while True: 

10 #X1 是 第 一 个 数据 ，x2 是 第 二 个 数据 ，line_label 中 保存 当前 读 取 的 行 号 
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11 x1,2,X3,x4,x5,x6,line label = sess.run([col1, col2, col3, col4, col5, col6,key]) 
12 # 若 当前 line_label 第 二 次 等 于 line1_name， 则 说 明 读 取 完 ， 跳 出 循环 

13 ifis second read--0 and line label--line1 name: 

14 is second read-1 

15 elifis second read--1 and line label--line1 name: 

16 break 


17 print ( x1,x2,x3,x4,x5,x6,line_label) 
18  coord.request stop() 
19  coord;join(threads) # 侍 环 结束 后 ， 请 求 关 闭 所 有 线程 


运行 上 述 代码 ， 结 果 如 图 3.2 所 示 。 


b'airline.csv:1' 
1948.0 1.214 0.243 0.1454 1.415 0.612 b'airline.csv:1' 
1949.0 1.354 0.26 0.2181 1.384 0.559 b'airline.csv:2' 
1950.0 1.569 0.278 0.3157 1.388 0.573 b'airline.csv:3' 
1951.0 1.948 0.297 0.394 1.55 0.564 b'airline.csv:4' 
1952.0 2.265 0.31 0.3559 1.802 0.574 b'airline.csv:5' 
1953.0 2.731 0.322 0.3593 1.926 0.711 b'airline.csv:6" 
1954.0 3.025 0.335 0.4025 1.964 0.776 b'airline.csv:7' 
1955.0 3.562 0.35 0.3961 2.116 0.827 b'airline.csv:8" 
1956.0 3.979 0.361 0.3822 2.435 0.8 b'airline.csv:9" 
1957.0 4.42 0.379 0.3045 2.707 0.921 b'airline.csv:10" 
1958.0 4.563 0.391 0.3284 2.706 1.067 b'airline.csv:11' 
1959.0 5.385 0.426 0.3856 2.846 1.083 b'airline.csv:12" 
1960.0 5.554 0.441 0.3193 3.089 1.481 b'airline.csv:13' 
:0 5.465 0.46 0.3079 3.122 1.736 b'airline.csv:14" 
9 5.825 0.485 0.3783 3.184 1.926 b'airline.csv:15' | 


图 3.2 输出 结果 
将 输出 结果 与 源 文件 airline.csv 进 行 对 比 ， 可 以 很 明显 地 看 到 差异 。 


| 3.1.4| 读 取 TFRecords 数 据 


在 机 器 学 习 中 ， 处 理 的 数据 量 都 非常 巨大 ， 常 用 的 数据 读 取 方 式 一 般 都 会 存在 内 存 占 


用 过 高 的 问题 。TensorFlow 针 对 该 问题 进行 了 优化 ， 定 义 了 TFRecords 格 式 文 件 。 


TFRecords 是 一 种 二 进 制 文件 ， 能 更 好 地 利用 内 存 ， 更 方便 地 进行 复制 和 移动 ， 并 且 
不 需要 单独 标记 文件 ， 可 以 使 TensorFlow 的 数据 集 更 容易 与 网 络 应 用 架构 相 匹配 。 采 用 这 


种 方式 读 取 数 据 分 为 如 下 两 个 步骤 。 

Q@ 把 样本 数据 转换 为 TFRecords 二 进 制 文件 。 

@ 读 取 TFRecords 格 式 文 件 。 

前 一 章 介 绍 了 MNIST 数 据 集 ， 本 节 将 继续 以 MNIST 数 据 集 为 数据 源 ， 
TFRecords 格 式 文件 ， 然 后 读 取 TFRecords 格 式 文件 中 的 几 张 图 片 。 


1. 生成 TFRecords 文 件 


将 其 转 为 


TFRecords 文 件 中 的 数据 是 通过 tf.train.Example 协 议 缓冲 区 的 格式 存储 的 。 生 成 


TFRecords 文 件 就 是 将 数据 填 入 tftrain.Example 协 议 缓存 区 ， 然 后 将 该 协议 缓冲 
一 个 字符 串 ， 写 入 TFRecords 文 件 。 
tensorflow\core\example 目 录 的 example.proto 和 feature.proto 文 件 中 给 


区 序列 化 为 


H T tf.train. 
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Example 协 议 缓冲 区 的 定义 : 
message Example { 
Features features - 1; 


D: 


message Features( 
map«string,Feature» featrue = 1; 


bh 


message Feature( 
oneof kind( 
BytesList bytes list = 1; 
FloatList float. list = 2; 
Int64List int64 list = 3; 
} 
} 


从 上 述 代 码 可 以 看 到 ，tf.train.Example 协 议 缓冲 区 的 数据 结构 相对 简洁 ， 可 以 理解 
成 属性 名 和 属性 值 的 对 应 关系 表 。 其 中 ， 属 性 名 是 一 个 字符 串 ， 属 性 值 可 以 是 字符 串 
(BytesList)、 实 数列 表 (FloatList) 或 整数 列表 (Int64List)。 

因此 ， 将 数据 填 入 tf.train.Example 协 议 缓冲 区 的 过 程 ， 就 是 构建 tf.train.Example 数 据 结 
构 的 过 程 。 对 于 MNIST 数 据 集中 的 数据 ， 我 们 构建 的 数据 结构 中 仅 保 存 两 个 属性 : 标签 和 
图 像 。 数 据 结构 的 具体 实现 如 下 : 


example = tf.train.Example(features=tf.train.Features( 
feature={ 
'label': _int64_feature(np.argmax(labels[index])), 
'image raw': bytes feature(image raw) 


13) 
通过 TFRecordWriter() 方 法 ， 将 缓冲 区 的 数据 序列 化 后 写 入 TFRecords 文 件 。 生 成 
TFRecords 文 件 的 具体 实现 如 下 : 


01 import tensorflow as tf 

02 from tensorflow.examples.tutorials.mnist import input_data 
03 import numpy as np 

04 from PIL import Image 


05 # 主 程序 

06 if name --' main * 

07  getmnsit tfreords() # 生 成 TFRecords 文 件 
08 read tfrecords() 共 卖 取 TFRecords 文 件 
09 


10 # 把 传 入 的 value 转 换 为 整 型 的 属性 ，int64_list 对 应 tftrain.Example 的 定义 

11 def int64 feature(value): 

12 return tf.train.Feature(int64 list-tf.train.Int64List(value-[value])) 

13 :HBf&ABSvaluefti&7Se C EB3ERURUREIE, bytes lisbuihu tf.train.Example 的 定义 
14 def bytes feature(value): 

15 return tf.train.Feature(bytes list-tf.train.BytesL ist(value-[value])) 


17 defgetmnsit tfreords(): # 将 MNIST 数 据 集 转 为 TFRecords 文 件 方法 
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18 。” # 读 取 MNIST 数 据 集 

19  mnist- input data.read data sets("./mnist data", dtype-tf.uint8, one_hot=True) 

20 images = mnist.train.images HERRER, TUF AREF 

21 labels = mnist.train.labels 州 | 练 数据 所 对 应 的 标签 ， 可 以 作为 属性 存储 

22 num examples = mnisttrain.num_examples HEREIN 

23 

24 filename = "/output.tfrecords" THBXESESS A TFRecords X-/rfSitbll 

25 writer = tf.python io. TFRecordWriter(filename) # 创 建 一 个 Writer 来 写 TFRecords 文 件 

26 forindex in range(num_examples): 

27 image. raw = images[index].tostring() THOEISOBIETSIS A ERE ER 

28 # 将 一 个 样 例 转换 为 tftrain.Example 协 议 缓冲 区 ， 并 将 所 有 的 信息 写 入 这 个 数据 结构 

29 example = tf.train.Example(features-tf.train.Features(feature-( 

30 "label. int64 feature(np.argmax(labels[index])), 

31 'Irmage raw: bytes feature(image raw)])) 

32 writer.write(example.SerializeToString())# 将 tf.train.Example 协 议 缓冲 区 序列 化 后 写 入 TFRecords 
文件 

33  writer.close() 

其 中 ， 对 于 从 文件 中 读 取 的 数据 ， 第 10~15 行 定义 了 将 它们 转换 为 与 协议 缓冲 区 匹配 


的 整数 列表 和 字符 串 类 型 。 
第 19~22 行 读 取 MNIST 数 据 集 文件 ， 并 获取 与 数据 对 应 的 图 像 和 标签 。 
运行 上 述 代 码 ， 将 在 代码 所 在 文件 夹 中 生成 output.tfrecords 文 件 。 使 用 二 进 制 文件 编 
辑 器 打开 该 文件 ， 显 示 结果 如 图 3.3 所 示 。 


| output.tfrecords x| 
和 
€0eoooo00h: 3A 03 0O 99 OO OO OO OO 98 C5 59 4D OA B7 06 OA ; :........ m 
0e0000010h: OE BA 05 6C 61 62 65 6C 12 05 1A 03 0A 01 07 0A ; ...label........ 
60000020h: A4 06 OA 09 69 6D 61 67 65 SF 72 61 77 12 96 06 ; ?..image raw.? 
00000030h: OA 93 06 OA 90 06 00 00 00 00 00 00 00 GO OO GO ; .2.2.......... 
€eoooo4Qh: GO GO OO OO OO OO OO OO OO OO OO OO OO OO OO OO ; ................ 
00000050h: 0O OO OO OO OO OO OO OO OO OO OO OO OO OO OO OO ; ................ 
00000060h: 00 OO GO OO OO OO OO OO OO OO OO OO OO OO OO OO : ................ 
图 3.3 output.tfrecordsX (t 
2. 读 取 TFRecords 文 件 


读 取 TFRecords 文 件 就 是 使 用 队列 读 取 TFRecords 文 件 中 的 数据 ， 可 以 分 为 以 下 两 个 
步骤 。 

@ 获取 一 个 协议 缓冲 区 ， 解 析 对 应 属性 ， 转 换 为 张 量 。 

© 将 张 量 作为 输入 进行 训练 处 理 。 

首先 ， 使 用 队列 从 TFRecords 文 件 中 读 取 数 据 ， 然 后 使 用 tf.TFRecordReader 的 tf.parse_ 
single_example 操 作 将 tf.train.Example 协 议 缓冲 区 解析 为 张 量 ， 具 体 实现 如 下 : 


01 # 读 取 TFRecords 文 件 中 的 数据 
02 def read tfrecords(): 


03 reader -tf.TFRecordReader() # 他 | 建 一 个 reader 来 读 取 TFRecords 文 件 中 的 样 例 
04 。” # 通 过 tftrain.string_input_producer 创建 输入 队列 
05 filename queue = tf.train.string input producer([" /output.tfrecords"]) 
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O6 。 # 从 文件 中 读 取 一 个 样 例 到 队列 中 

07 _, serialized_example = reader.read(filename queue) 
O8 ”# 解 析 读 入 的 一 个 样 例 

09 features = tf.parse single example( 


10 Serialized example, 

11 features-( 

12 扩 广 里， 解析 数据 的 格式 需要 和 上 面 写 入 数据 的 格式 一 致 
13 'image raw' tf.FixedLenFeature([], tf.string), 

14 'label': tf.FixedLenFeature([], tf.int64), 

15 p 


16  sitfdecode rawnaILUS e &EERÉEHR RES ESSONT NUR GR RA 
17 images tf.decode raw(features['image raw, tf.uint8) 
18 images = tf.reshape(images, [28, 28, 1]) 

19  stf.casteJL eft ABUS HR 7S PrrRS BREE 

20 labels = tf.cast(features[label, tf.int32) 


由 于 输入 图 像 的 处 理 可 以 是 无 序 的 ， 因 此 使 用 tftrain.shuffle_ batch 生 成 随机 队列 以 进 
行 多 线程 的 样本 处 理 。 具 体 实 现 如 下 : 


21 sess -tf.Session() 

22 。 # 肩 动 多 线程 处 理 输入 数据 

23 coord = tf.train.Coordinator() 

24 threads = tf.train.start_queue_runners(sess=sess, coord=coord) 
25 num preprocess threads = 1 # 线 程 数 量 

26 batch size- 1 # 每 批 的 样本 数 

27 min queue examples = 50 # 队 列 最 小 值 

28 images batch, label batch =tf.train.shuffle_batch( 


29 [images, labels], 

30 batch. size-batch size, 

31 num threads-num preprocess threads, 

32 capacityzmin queue examples + 3 * batch size, 
33 min. after dequeue-min queue examples) 


34 image = tf.reshape(images batch, [28, 28]) 


最 后 ， 将 获取 的 文件 张 量 batch 在 训练 中 进行 处 理 。 在 此 将 获取 的 张 量 转换 为 图 片 进 
行 保存 。 具 体 实现 如 下 : 

01 withtf.Session()as sess: 

02 init = tf.global variables initializer() 

03 sess.run(init) # 会 话 初始 化 


04 coord = tf.train.Coordinator() 

05 threads = tf.train,start_queue_runners(sess=sess, coord=coord) 
06 foriin range(5): 

07 data, label = sess.run([image, label batch]) # 获 取 数 据 

08 result = Image.fromarray(data) 

09 result.save(str(i) + .png')# 保 存 图 片 

10 coord.request_stop() 

11 coord.join(threads) 


运行 上 述 代 码 ， 在 代码 所 在 文件 夹 中 生成 了 对 应 的 5 个 图 片 文件 ， 结 果 显 示 如 图 
3.4 所 示 。 
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O.png lpng 2.png 3.png 4.png 


图 3.4 图片 文件 
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机 器 学 习 中 最 关键 的 就 是 模型 的 设计 与 训练 。 

在 模型 的 设计 和 训练 过 程 中 ， 会 耗费 大 量 的 时 间 。 为 了 降低 训练 过 程 中 因 意 外 情况 发 
生 而 造成 的 不 良 影响 ， 我 们 会 对 训练 过 程 中 的 模型 进行 定期 存储 。 

为 了 保证 意外 中 断 的 模型 能 够 继续 训练 以 及 训练 完成 的 模型 在 其 他 数据 上 能 够 直接 使 
用 ， 我 们 会 对 存储 的 模型 进行 加 载 。 

TensorFlow 中 提供 了 tftrain.Saver 类 来 实现 训练 模型 的 保存 和 加 载 。tftrain.Saver 类 的 
save() 方 法 将 TensorFlow 模 型 保存 到 指定 路 径 中 ， 该 类 的 restore() 方 法 用 来 加 载 这 个 已 保存 
的 TensorFlow 模 型 。 


[3.2.1 Ei 


TensorFlow 模 型 包括 计算 图 以 及 计算 过 程 中 的 值 ， 主 要 包括 计算 图 中 的 所 有 变量 、 操 
作 等 ， 以 及 计算 过 程 中 的 权重 、 偏 差 、 梯 度 等 值 的 更 新 结果 。 

在 TensorFlow 中 ， 提 供 了 tftrain.Saver 类 来 完成 模型 的 存储 。 

saver - tf.train.Saver(max to keep, keep checkpoint every n hours) 

在 创建 类 时 ， 可 以 指定 最 多 可 保留 的 模型 数 、 训 练 过 程 每 隔 多 长 时 间 进 行 一 次 自动 保 
存 等 。 

ftrain.Saver 类 提供 了 save0) 方 法 来 实现 保存 工作 。 在 该 方法 中 需要 说 明 会 话 、 所 保存 
模型 的 名 称 ， 以 及 每 次 保存 模型 时 间隔 的 迭代 学 习 次 数 等 。 需 要 注意 的 是 ， 一 旦 调用 该 方 
法 ， 其 后 定义 的 变量 将 不 会 被 保存 。 具 体 实现 如 下 : 


saver.save(sess, 'my-model' global step-step,write meta graph-False) 


接 下 来 ， 使 用 saver 类 保存 训练 模型 ， 该 模型 实现 了 5*(w1+w2) 的 计算 ， 具 体 实现 
如 下 : 


01 def Save_model(): 

02  w1-tf.placeholder("float", name-"w1") 
O3  w2-tf.placeholder("float", name-"w2") 
04  b1-tf.Variable(5.0,name-"b1") 

05  w3-tf.ada(w1,w2) 
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06 w4 -tf.multiply(w3,b1,name-"op to restore") 3E (w1w2)*5 
07 feed dict ={w1:1,w2:2} # 定 义 填充 数据 
08 


09 sess -tf.Session() 
10  sess.run(tf.global variables initializer()) 


11 saver -ff.train.Saver() # 定 义 saver 类 

12  print(sess.run(w4;feed dict)) PARRER 

13  saver.save(sess, './my_test_model',global_step=1000) # 保 存 模型 

14  sess.close() 

15.. Te ) 

16 if name --' main * 

17 Save model) 坟 周 用 模型 存储 方法 


上 述 代码 获取 值 1 和 2 并 分 别 填充 到 w1 和 w2 中 ， 然 后 计算 其 和 的 5 倍 。 运 行 该 代码 ， 打 
印 输出 如 下 : 


可 以 看 到 ， 不 仅 有 控制 台 的 打印 输出 ， 还 在 代码 所 在 文件 夹 中 出 现 了 四 个 文件 ， 如 
图 3.5 所 示 。 


|] checkpoint 
L] my.test model-1000.data-00000-of-00001 
L] my.test model-1000.index 
[L] my.test model-1000.meta 
图 3.5 ”存储 的 文件 


这 四 个 文件 分 别 存储 训练 过 程 中 的 不 同 信 息 ， 其 中 : 
口 .meta 文 件 保 存 TensorFlow 计 算 图 的 结构 信息 。 
O data 和 .index 文 件 存储 训练 好 的 参数 。 


| 3.2.2 wie 


加 载 存储 好 的 模型 ， 包 括 加 载 模型 和 加 载 训 练 参 数 两 步 。 

TensorFlow 提 供 了 tftrain.import( 相 关 方 法 来 加 载 已 存储 的 模型 ， 如 import_meta_ 
graph() 方 法 : 

saver = tf.train.import_meta_graph('my_test_model-1000.meta') 

其 中 ，“my_test_model-1000.meta” 文 件 就 是 已 存储 的 模型 文件 。 

完成 计算 图 的 加 载 后 ， 还 需要 加 载 训练 过 的 参数 的 值 ， 这 需要 使 用 restore0 方 法 。 

完成 模型 的 加 载 后， 可 以 将 待 训练 数据 放 入 模型 中 进行 训练 。 例 如 ， 加 载 刚才 存储 的 模 
型 5*(w1+w2)， 将 待 训练 数据 13、17 分 别 放 入 模型 的 w1 和 w2 中 进行 计算 。 具 体 实现 如 下 : 


01 def Load_model(): 
02  sess-tf.Session() 
03 saver = tf.train.import meta graph('my test model-1000.meta') # 加 载 模型 
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04  saver.restore(sess,tf.train.latest checkpoint( /")) 所 0 载 参数 
05 graph -tf.get default graph() 
06 wi -graph.get tensor by name("w1:0") # 获 取 需 要 使 用 的 变量 


07  w2-graph.get tensor by name("w2:0") 

08 feed dict -(w1:13.0,w2:17.0) 

09 op to restore = graph.get tensor by name('op to restore:0") 

10 print (sess.run(op. to restoreffeed dict)) # 计 算 结 果 
11  sess.close() 

42 — print(*eeeeeeeeeneeen 

13 if name  --' main * 

14 Save model() 

15 Load model() 


运行 上 述 代码 ， 打 印 输出 (13+17)*5 的 最 终结 果 ， 如 图 3.6 所 示 。 


INFO:tensorflow:Restoring parameters from ./my test model-1000 
150.0 


本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 
图 3.6 打印 结果 


可 以 很 明显 地 看 到 ， 所 存储 的 模型 已 加 载 ， 并 使 用 新 的 数据 w1=13 和 w2=17， 完 成 
5*(wl1+w2) 的 计算 。 


E a e Ó 


在 完成 模型 的 基础 设计 后 ， 为 了 让 模型 能 够 满足 实际 的 生产 需要 ， 需 要 对 模型 的 各 种 
参数 进行 调整 和 优化 。 


[3-3.1 评 人 指标 的 介绍 与 使 用 


模型 的 评估 主要 有 如 下 几 个 指标 : 准确 率 、 识 别 的 时 间 和 loss 下 降 变化 等 。 

观察 这 些 指 标 最 常用 的 工具 就 是 TensorFlow 提 供 的 可 视 化 工具 TensorBoard， 
TensorBoard 提 供 了 对 准确 率 、 损 失 值 、 权 重 、 偏 差 值 以 及 各 个 设备 上 所 消耗 内 存 和 时 间 
等 的 变化 情况 的 观察 。 在 第 2 章 ， 我 们 已 对 相关 内 容重 点 进行 了 介绍 。 

另 一 个 常用 的 工具 就 是 Timeline， 可 以 使 用 它 分 析 在 整个 模型 的 计算 过 程 中 ， 每 个 操 
作 所 消耗 的 时 间 ， 由 此 可 以 有 针对 性 地 优化 耗 时 的 操作 。 

使 用 Timeline 对 象 获取 每 个 节点 的 执行 时 间 ， 主 要 包括 如 下 步 又 。 

CD 在 sess.run0 中 指定 可 选 的 参数 options 和 run metadata. 

© 在 Timeline 中 使 用 run_metadata.step_stats() 创 建 一 个 对 象 。 

@ 将 该 对 象 数据 保存 为 文件 。 
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下 面 实现 矩阵 的 乘法 ， 使 用 timeline( 方 法 进行 记录 并 展示 ， 有 具体 实现 如 下 : 


01 import tensorflow as tf 

02 from tensorflow.python.client import timeline 
03 x -tf.random normal([100, 100]) # R&ELABIEE 
04 y = tf.random normal([100, 100]) 

05 res - tf.matmul(x, y) 


07 with tf.Session() as sess: 

08 run options = tf.RunOptions(trace level-tf.RunOptions.FULL TRACE) 
09 run metadata = tf.RunMetadata() 

10  sess.run(res, options-run options, run metadata-run metadata) 

11  tl-timeline.Timeline(run metadata.step stats) 

12  ctf-tlgenerate chrome trace format() 

13 with open('timeline.json', 'w') as f: 

14 f.write(ctf) 


运行 上 述 代码 ， 会 在 代码 所 在 目录 中 生成 一 个 timelinejson 文 件 。 
在 谷歌 浏览 器 的 地 址 栏 中 输入 chrome://tracing， 将 生成 的 timeline.json 文 件 导入 该 页 面 
中 ， 显 示 结 果 如 图 3.7 所 示 。 


SN S5 ens ol 


[ETT] 


Litem selected. | slice (1) | 
Title -Retval Event(s) Link 
Category Op Incoming flow MatMul 
User Friendly Category other Outgoing flow MatMul 
Start 76004 ms Preceding events 
Wall Duration. 10001ms Following events. 2 events of various types. 
F Args All connected events 
name "retval Matiul_0_0" 
op * Retval* 
inputo "Wh" 
图 3.7 ”模型 耗 时 


图 3.7 所 示 界 面 的 顶部 就 是 时 间 轴 ， 以 ms( 毫 秒 ) 为 单位 。 
从 左 到 右 依次 为 模型 一 次 完整 的 计算 过 程 中 ， 每 个 操作 在 设备 上 消耗 的 时 间 。 有 具体 而 
言 ， 包 括 该 操作 的 开始 时 间 、 结 束 时 间 ， 以 及 运算 操作 的 输入 、 名 称 、 类 型 等 。 


[3.32 EE 
对 模型 评估 的 准确 率 、 识 别 的 时 间 、loss 下 降 变 化 等 指标 的 调 优 主要 包括 两 类 操作 : 
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一 类 是 调整 模型 算法 ， 另 一 类 是 调整 参数 和 重 构 代 码 。 对 于 调整 模型 算法 ， 我 们 将 在 后 续 
章节 中 详细 介绍 ， 本 节 着 重 讲解 调整 参数 和 重 构 代 码 。 

调整 参数 和 重 构 代码 时 需要 注意 的 情形 ， 主 要 包括 以 下 方面 。 

1. 调整 学 习 率 

学 习 率 是 机 器 学 习 中 最 常设 定 的 参数 ， 表 示 每 次 学 习 调 整 的 变化 。 学 习 率 设置 得 越 
大 ， 训 练 时 间 就 越 短 ， 速 度 就 越 快 ， 而 学 习 率 设置 得 越 小 ， 训 练 的 准确 度 就 越 高 。 在 训练 
模型 的 调 优 过 程 中 ， 对 于 学 习 率 的 设置 需要 不 断 地 进行 尝试 。 

在 目前 最 流行 的 神经 网 络 模型 中 ， 训 练 过 程 的 优化 方法 基本 包括 梯度 下 降 法 、 
Momentum 法 、AdaGrad 法 、RMSprop 和 Adam 等 方法 。 在 这 些 训练 方法 中 ， 梯 度 下 降 法 
和 Momentum 法 是 需要 预先 设 定 学 习 率 的 ， 而 其 他 几 种 方法 是 自 适 应 学 习 率 的 。 

梯度 下 降 法 最 常见 的 三 种 分 别 为 BGD、SGD 和 MBGD。 

口 BGD(Batch Gradient Descent， 批 梯度 下 降 )。BGD 利 用 现 有 参数 对 整个 数据 集 的 

输入 计算 相应 的 输出 y 值 ， 然 后 和 实际 y 值 进行 比较 ， 进 而 统计 误差 、 计 算 评 价 误 
差 ， 以 及 作为 更 新 参数 的 依据 。 该 方法 保证 了 使 用 所 有 的 训练 数据 进行 计算 ， 能 
够 收敛 ， 不 需要 逐渐 减少 学 习 率 ; 但 是 计算 起 来 非常 慢 ， 遇 到 大 量 的 数据 集 也 会 
非常 棘手 ， 而 且 不 能 投入 新 数据 实时 更 新 模型 。 

O SGD(Stochastic Gradient Descent， 随 机 梯度 下 降 )。 与 BGD 一 次 用 所 有 数据 计算 梯 

度 相 比 ，SGD 每 次 更 新 时 对 每 个 样本 都 会 进行 梯度 更 新 。SGD 运 行 速度 比较 快 ， 
并 且 可 以 新 增 样本 ， 但 因为 更 新 比较 频繁 ， 可 能 造成 损失 值 有 严重 的 震荡 现象 。 
O MBGD(Mini-Batch Gradient Descent， 小 批量 梯度 下 降 法 )。MBGD 每 次 利用 一 小 
批 样本 进行 计算 ， 这 样 可 以 降低 参数 更 新 时 的 方差 ， 收 敛 更 稳定 。 不 过 MBGD 不 
能 保证 很 好 的 收敛 性 。 如 果 学 习 率 选择 的 太 小 ， 收 和 敛 速度 会 很 慢 ;， 如 果 太 大 ， 损 
失 值 就 会 在 极 小 值 处 不 停 地 震荡 甚至 偏离 。 而 且 ， 对 于 非 凸 函数 ， 容 易 收 敛 到 局 
部 的 极 小 值 处 ， 甚 至 被 困 在 鞍点 处 。 

Momentum 法 则 加 入 速度 变量 v， 更 新 时 在 一 定 程度 上 保留 之 前 的 更 新 方向 ， 利 用 当 
前 批 次 微调 本 次 的 更 新 参数 。 这 样 可 以 使 梯度 方向 不 变 的 维度 上 的 更 新 速度 变 快 ， 使 梯度 
方向 有 所 改变 的 维度 上 的 更 新 速度 变 慢 ， 从 而 加 快 收敛 并 减 小 震荡 。 

AdaGrad 法 对 低频 的 参数 做 较 大 的 更 新 ， 对 高 频 的 参数 做 较 小 的 更 新 。 这 样 在 处 理 稀 
疏 的 数据 时 就 能 够 有 较 好 的 表现 ， 但 是 由 于 计算 时 分 母 会 不 断 积累 ， 因 此 学 习 率 就 会 收缩 
并 最 终 变 得 非常 小 。 

RMSprop 是 Geoff Hinton 提 出 的 一 种 自 适 应 学 习 率 方法 ， 用 于 解决 AdaGrad FIRA 
剧 下 降 的 问题 ， 在 实践 中 对 于 循环 神经 网 络 的 效果 较 好 。 

Adam 是 另 一 种 计算 每 个 参数 的 自 适应 学 习 率 方法 ， 能 够 根据 梯度 的 一 阶 抵 和 二 阶 
矩 进行 动态 调整 。 

TensorFlow 也 提供 了 这 些 优化 方法 ， 主 要 包括 如 下 几 种 。 


class tf.train.GradientDescentOptimizer 
class tf.train.AdagradOptimizer 


第 3 章 TensorFlow 进 阶 


class tf.train. MomentumOptimizer 
class tf.train.AdamOptimizer 
class tf.train.FtrlOptimizer 

class tf.train.RMSPropOptimizer 


2. 优化 IO 

大 家 经 常 接触 到 的 数据 读 写 操作 主要 有 数据 预 处 理 、 队 列 以 及 内 存 读 写 等 操作 。 优 化 
IO 主 要 针对 这 三 大 数据 操作 。 

第 一 ， 在 数据 预 处 理 阶段 ， 如 果 数 据 量 比较 大 ， 建 议 在 使 用 TensorFlow 官 方 提 供 的 数 
据 格式 TFRecords 进 行 转换 后 再 使 用 ， 一 般 不 直接 使 用 feed_dict 方 式 。 因 为 使 用 feed_dict 方 
式 会 将 所 有 的 输入 数据 首先 全 部 读 取 到 内 存 中 ， 然 后 再 执行 计算 ， 这 样 会 使 数据 IO 操作 和 
计算 操作 形成 串 行 。 而 使 用 TFRecords 格 式 的 数据 ， 由 TensorFlow 进 行 调度 ，TensorFlow 会 
尝试 将 各 种 计算 操作 和 数据 读 取 操作 在 一 定 程度 上 形成 并 行 ， 从 而 带 来 性 能 上 的 提升 。 

第 二 ， 在 处 理 数据 时 ， 最 常 使 用 的 就 是 队列 。 在 实际 使 用 中 特别 需要 注意 的 是 min_ 
after_dequeue 值 的 设置 。 如 果 该 值 太 大 ， 会 使 队列 试图 在 内 存 中 保留 大 量 记录 ， 使 内 存 容 
易 达 到 饱和 ， 从 而 触发 硬盘 的 交换 功能 ， 降 低 队 列 的 速度 。 

第 三 ， 注 意 内 存 的 使 用 ， 应 使 整个 模型 的 内 存 消 耗 不 超出 机 器 内 存 。 如 果 超 出 机 器 内 
存 ， 必 然 触发 交换 功能 ， 从 而 降低 读 写 速 度 。 

3. 优化 计算 

对 于 计算 的 优化 ， 需 要 根据 实际 情况 进行 处 理 。 主 要 通过 对 TensorBoard 的 可 视 化 以 
及 timeline.json 文 件 进行 观察 ， 找 到 耗 时 多 的 操作 ， 通 过 优化 执行 顺序 、 并 行 操作 等 方式 
进行 具体 优化 。 


EZ sana e 


本 章 主 要 讲解 了 使 用 TensorFlow 进 行 机 器 学 习 过 程 中 的 加 载 训练 数据 、 构 建 训 练 模 
型 、 进 行 数据 训练 、 评 估 和 预测 四 大 步骤 ， 重 点 介绍 了 这 四 大 步骤 中 常用 的 方法 和 技巧 。 
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线性 模型 


前 面 介绍 了 机 器 学 习 的 基础 知识 和 
TensorFlow 的 使 用 。 接 下 来 的 章节 将 对 经 
典 的 机 器 学 习 算法 进行 介绍 。 本 章 将 讲解 
机 器 学 习 算 法 中 最 基础 的 线性 模型 ， 并 通 
过 对 线性 模型 的 学 习 进一步 熟悉 如 何 使 用 
TensorFlow 完 成 机 器 学 习 模 型 的 构建 、 训 
练 和 评估 等 。 


EEE ^ 


在 机 器 学 习 中 ， 线 性 模型 是 形式 最 简单 、 最 容易 理解 的 一 种 模型 ， 也 是 最 基础 的 一 种 

模型 。 在 数学 上 ， 用 函数 形式 可 表示 为 : 
f(x) = wx +wx 十 … 十 Caxad +b 
使 用 向 量 方式 则 可 写成 : 
f(x)=w x+b 

其 中 ，@ = (@1; wz; .…; Wa)。 

在 二 维 几何 平面 上 可 以 理解 为 ， 在 一 个 平面 中 存在 已 知 的 数据 点 ， 通 过 学 习 处 理 ， 使 
用 一 条 线 能 够 建立 这 些 点 之 间 的 关系 ， 这 条 线 也 能 够 对 这 个 平面 上 未 知 的 点 进行 判断 。 

常见 的 线性 模型 有 线性 回归 和 逻辑 回归 两 种 。 虽 然 它们 都 是 线性 模型 ， 但 使 用 环境 和 
使 用 目的 存在 明显 的 差异 。 

口 线性 回归 

线性 回归 一 般 用 于 分 析 变 量 之 间 的 关系 ， 并 试图 通过 从 给 定 的 数据 中 学 习 到 的 线性 模 
型 来 预测 以 后 的 值 。 比 如 ， 通 过 房子 大 小 预测 房价 ， 通 过 加 油 量 预测 总 价 等 。 一 般 而 言 ， 
我 们 认为 模型 的 输入 值 是 连续 的 ， 输 出 值 也 是 连续 的 。 这 是 一 种 “回归 ”算法 。 
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口 逻辑 回归 

逻辑 回归 也 称 为 对 数 概率 回归 ， 用 于 判断 输入 值 和 比较 对 象 的 “是 ”与 “ 否 ” 关 系 。 
比如 ， 房 子 是 大 是 小 ， 加 油 是 多 是 少 ， 喜 欢 玩 游戏 还 是 不 喜欢 玩 游戏 等 。 虽 然 名 字 中 有 
“回归 ”两 个 字 ， 但 逻辑 回归 其 实 是 一 种 “分 类 ”算法 。 

接 下 来 ， 我 们 将 具体 讲解 线性 回归 和 逻辑 回归 。 


LoET 和 白 


我 们 知道 ， 线 性 回归 试图 得 到 一 个 线性 模型 ， 该 模型 的 预测 值 应 尽 可 能 准确 地 等 于 实 
际 值 。 本 节 将 讲解 如 何 使 用 TensorFlow 完 成 一 元 线性 回归 。 

可 将 一 元 线性 回归 理解 为 对 于 给 出 的 入 个 点 (x,y)， 找 到 一 条 直线 y=ax+b 来 拟 合 这 些 
点 。 在 初中 数学 中 ， 我 们 会 给 定 两 个 点 A(x1,y1) 和 B(x2,y2) 来 求解 出 a 和 4b 的 值 ， 使 得 直线 穿 
过 这 两 个 点 。 但 是 ， 当 对 多 个 已 知 点 求解 最 合适 的 直线 时 ， 我 们 采用 最 小 化 均 方差 方法 ， 
使 得 所 有 点 到 这 条 直线 的 欧 氏 距离 之 和 最 小 。 

在 使 用 TensorFlow 进 行 编程 学 习 时 ， 可 以 分 为 以 下 四 步 。 

CD 生成 训练 数据 。 

@ 定义 训练 模型 。 

@ 进行 数据 训练 。 

@ 运行 总 结 。 

接 下 来 ， 将 通过 以 上 几 步 来 进行 一 元 线性 回归 。 
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首先 ， 模 拟 生 成 训练 数据 。 假 设 最 后 需要 学 习 的 方程 是 y=3x+5， 我 们 构造 满足 这 个 条 
件 的 若干 个 点 ， 并 在 构造 过 程 中 加 入 偏差 噪声 点 。 为 了 更 加 便捷 和 可 展示 ， 我 们 主要 使 用 
NumPy 和 matplotlib 两 个 库 来 实现 ， 具 体 实现 如 下 : 


01 import os 

02 os.environ TF CPP MIN LOG LEVEL7 ='2' 

03 import tensorflow as tf # 用 于 模型 训练 
04 import matplotlib.pyplot as plt # 用 于 绘制 图 形 
05 import numpy as np # 用 于 科学 计算 
06 np.set_printoptions(threshold='nan') 寿 J 印 内 容 不 限 长 度 
07 t_x=np.linspace(-1,1,50,dtype = np.float32) # 生 成 x 

08 noise = np.random.normal(0 , 0.05 , t x.shape) # 生 成 噪声 点 
09 ty=t_x*3.0+5.0+noise # 生 成 y 

10 plt.plot(t_x,t_y,'k.") # 绘 图 

11 plt.show() 


其 中 ， 第 01 和 02 行 定义 TensorFlow 中 日 志 的 显示 等 级 。 如 果 不 做 任何 处 理 ， 系 统 默 认 


T 
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参数 为 “1”， 会 显示 所 有 的 信息 ; 设置 参数 为 “2”， 只 显示 警告 和 错误 信息 ; 设置 参数 
为 “3”， 则 只 显示 错误 日 志 信息 。 

第 07 行 生成 30 个 数 ， 作 为 50 个 点 的 xz 轴 。 使 用 NumPy 库 的 等 差 数列 方法 ， 在 -1 到 1 之 间 
生成 50 个 数 。 

第 08 行 生成 噪声 点 。 这 里 获取 的 是 满足 均值 为 0、 方 差 为 0.05 的 正 态 分 布 的 随机 点 。 

第 09 行 生成 50 个 数 ， 作 为 50 个 点 的 y 轴 。 这 些 数 在 满足 y=3x+5 的 基础 上 增加 了 一 个 随 
机 数 。 

运行 这 段 代码 ， 就 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.1 所 示 。 


8 . 
7 .. 
64 .. 
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图 4.1 训练 数据 
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完成 训练 数据 的 生成 后 ， 下 面 实现 线性 回归 的 训练 模型 。 前 面 已 提 到 过 ， 这 可 以 使 用 
最 小 化 均 方 误差 来 实现 。 具 体 实现 如 下 : 


01 x = tf.placeholder(tf.float32) # 占 位 符 

02 y = tf.placeholder(tf.float32) 

03 a= tf.Variable(0.0) # 变 量 节点 

04 b= tf.Variable(0.0) 

05 curr y=x*a+b # 线 性 模型 

06 loss = tf.reduce_sum(tf.square(curr_y — y)) # 损 失 函 数 

07 optimizer = tf.train.GradientDescentOptimizer(learning rate) 

08 train = optimizer.minimize(loss) 州 咱 练 的 结果 是 使 损失 函数 的 值 最 小 


其 中 ， 第 06 行 定义 了 损失 函数 。 使 用 线性 模型 ， 计 算 每 一 个 训练 值 对 应 的 模型 的 输出 
值 curr y， 计 算 输 出 值 与 该 点 的 实际 y 值 之 间 的 方差 。 
第 07 和 08 行 定义 了 学 习 优化 器 ， 使 用 梯度 下 降 法 ， 让 损失 函数 的 值 最 小 。 


[4.2.3 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 。 总 共 训练 1000 次 ， 每 次 的 学 习 率 为 0.001。 为 了 便于 


查 


01 


learning rate-0.001 
training epochs-1000 
sess - tf.Session() 
sess.run(tf.global variables initializer()) 
for i in range(training epochs): 

sess.run(train, (t. x, y:t_y}) 

if i % 207-0: 

print (i,sess.run([a,b,loss],{x:t_x, y:t_y})) 

a val-sess.run(a) 
b val-sess.run(b) 
print("this model is yz",a val," * x *"b val) 
sess.close() 
y learned-t x*a val-b val 
plt.plot(t xt. y,'k.") 
plt.plot(t xy learned,'g-") 
plt.show() 
plt.close() 
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看 训练 过 程 ， 每 训练 完 20 次 ， 输 出 当前 的 训练 次 数 、a、b 以 及 损失 值 ， 最 终 绘 制 训练 集 的 
点 和 拟 合 的 直线 ， 具 体 实现 如 下 : 


# 学 习 率 
PERZ 
48/& Session 
# 变 量 初始 化 


# 从 训练 集中 开始 训练 


# 关 闭 


# 绘 制 点 
# 绘 制 线 


其 中 ， 第 06 行 按照 训练 模型 不 断 进行 训练 。 每 次 都 从 训练 集 t_x 中 获取 一 个 x， 按 照 训 


练 模型 


train 进 行 训练 ， 并 与 对 应 的 ty 进行 比较 。 


[4.2.4 5655 
经 过 以 上 步骤 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 4.2 所 示 。 
从 图 4.2 的 左 图 可 以 看 出 ， 当 六 0 时 ， 拟 合 的 值 与 目标 值 差别 很 大 ， 损 失 值 也 很 大 。 当 
i-20. i-40. i-60B], {h RETE W A o 
从 图 4.2 的 右 图 可 以 看 出 ， 在 训练 后 期 ，a 和 b、 损 失 值 都 不 再 发 生变 化 ， 达 到 了 最 佳 


© [0.10394561, 0.49944523, 1155.4668] 
20 [1.5687652, 4.4479647, 50.387043] 
480 [2.291677, 4.9280124, 8.9429426] 


60 [2.6484456, 4.9863749, 2.2146091] 800 [2.9960759, 4.9944501, 0.11498683] 
80 [2.8245161, 4.9934702, 0.62562239] 820 [2.9960759, 4.9944501, 0.11498683] 
100 [2.9114101, 4.9943328, 0.23934509] 840 [2.9960759, 4.9944501, 0.11498683] 
120 [2.9542933, 4.9944377, 0.1452755] 860 [2.9960759, 4.9944501, 0.11498683] 
140 [2.975457, 4.9944501, 0.1223639] 880 [2.9960759, 4.9944501, 0.11498683] 
160 [2.9859014, 4.9944501, 0.11678365] 900 [2.9960759, 4.9944501, 0.11498683] 
180 [2.991056, 4.9944501, 0.1154246] 920 [2.9960759, 4.9944501, 0.11498683] 
200 [2.9935999, 4.994501, 0.11509348] 940 [2.9960759, 4.9944501, 0.11498683] 
220 [2.9948554, 4.9944501, 0.11501306] 960 [2.9960759, 4.9944501, 0.11498683] 
240 [2.9954753, 4.9944501, 0.11499324] 980 [2.9960759, 4.9944501, 0.11498683] 
260 [2.9957814, 4.9944501, 0.11498839] this model is y- 2.99608 * x + 4.99445 


图 4.2 ”打印 输出 


从 图 4.3 的 图 形 输出 中 ， 可 以 看 到 生成 的 数据 和 拟 合 的 直线 。 
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图 4.3 ”图 形 输出 
在 本 节 中 ， 我 们 第 一 次 真正 使 用 TensorFlow 完 成 了 一 元 线性 回归 。 虽 然 实现 起 来 比较 
简单 ， 但 最 主要 的 是 掌握 了 使 用 TensorFlow 训 练 测试 数据 的 方法 : 通过 构建 模型 使 得 损失 
函数 达到 我 们 的 要 求 ， 从 而 确定 模型 相关 的 权重 值 。 


"E zi oe 


前 面 讲 解 了 一 元 线性 回归 ， 了 解 了 TensorFlow 的 基本 用 法 。 当 然 ， 在 实际 使 用 中 会 存 
在 多 个 因素 共同 影响 结果 的 情况 。 例 如 蛋糕 与 制作 蛋糕 的 材料 有 关 ， 也 与 蛋糕 的 尺寸 有 
关 。 房 子 的 总 价 和 房子 的 大 小 、 位 置 等 都 有 关系 。 在 本 节 中 ， 将 通过 拟 合 平面 来 讲解 多 元 
线性 回归 。 


[4.3.1] 二 元 线性 回归 算法 简介 


我 们 已 经 知道 线性 回归 算法 ， 其 向 量 方式 可 写成 f(x)=w xb, Xm, 
07(0,;0,;...,0,) o 


如 果 是 二 元 情况 ， 使 用 矩阵 形式 可 以 表示 为 : 


Wlo ol | 
可 以 将 二 元 线性 回归 理解 为 使 用 一 个 平面 y=wixi+wyxy+b 来 拟 合 这 些 点 。 与 一 元 线性 回 
归 一 样 ， 使 用 TensorFlow 进 行 编程 学 习 时 ， 可 分 为 如 下 四 步 。 
@ 生成 训练 数据 。 
@ 定义 训练 模型 。 
@ 进行 数据 训练 。 
图 运行 总 结 。 
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4.3.2 生成 放 练 数据 


对 于 训练 数据 ， 我 们 同样 通过 模拟 生成 。 假 设 最 后 需要 学 习 的 方程 是 y=0.1x1+0.2x， 
+0.3。 因 为 在 TensorFlow 中 ， 我 们 一 般 使 用 矩阵 运算 来 实现 ， 学 习 方程 也 可 以 表示 为 


[»]=[0.1 oz] foa]. 在 构造 模拟 数据 时 ， 需 要 使 用 数组 来 构造 对 应 的 数据 ， 具 体 实 
现 如 下 : 


01 import os 

02 os.environ['TF_CPP_MIN_LOG_LEVEL"]='2' 
03 import tensorflow as tf 

04 import matplotlib.pyplot as plt 


05 from mpl toolkits.mplot3d import Axes3D # 绘 制 三 维 图 像 
06 import numpy as np 
07 learning_rate=0.5 # 学 习 率 
08 training_epochs=1000 诉 川 练 次 数 
09 np.set printoptions(threshold-'nan") 3HTEDPSRHAKUSE 
# 构 造 数据 
10 x_data = np.float32(np.random.rand(2,100)) # 以 数组 方式 随机 生成 100 个 值 


11 y_data = np.dot(np.float32([0.100, 0.200]), x_data) + 0.300 # 生 成 y 值 
# 绘 制 三 维 散 点 图 
12 fig = plt.figure() 


13 ax-fig.add subplot(111, projection-'3d') # 创 建 三 维 的 绘图 工程 
14 ax.scatter(x_data[O][:99],x_data[1][:99], y_data[:99], c-r) # 绘 制 数 据点 
15 ax.set_zlabel('Z') # 坐 标 轴 


16 ax.set_ylabel(Y) 

17 ax.set_xlabel(X') 

18 plt.show() 

19 plt.close() 

其 中 ， 第 10 行 生成 了 一 个 2 行 100 列 的 数组 ， 数 组 中 的 元 素 为 小 于 1 的 随机 数 。 数 组 中 
每 一 列 的 两 个 数字 就 是 对 应 的 x 元， 一 共 100 个 数 。 

第 11 行 使 用 矩阵 乘法 方式 ， 由 x 值 生成 对 应 的 ?> 值 。 

运行 这 段 代码 ， 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.4 所 示 。 


图 4.4 训练 数据 
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[4.3.3 EI E 
完成 训练 数据 的 生成 后 ， 我 们 通过 使 用 最 小 化 均 方 误差 来 实现 线性 回归 的 训练 模型 ， 
具体 实现 如 下 : 


01 x = tf.placeholder(tf.fioat32,[None,None],name- x") # 占 位 符 

02 y = tf.placeholder(tf.float32,[None,None],name-'y") 

03 W= tf. Variable(tf.random uniform([1, 2], -1.0, 1.0)) # 变 量 节点 

04 b= tf. Variable(tf.zeros([1])) 

05 y = tf.matmul(W, x data) + b # 二 元 线性 模型 
06 loss = tf.reduce mean(tf.square(y - y_data)) # 损 失 函 数 


07 optimizer = tf.train.GradientDescentOptimizer(learning_rate) 
08 train = optimizer.minimize(loss) 
09 init -tf.global variables initializer() 3 初始 化 所 有 变量 


| 4.3.4 T 
接 下 来 进行 正式 的 数据 训练 。 总 共 训练 1000 次 ， 每 次 的 学 习 率 为 0.05。 为 了 便于 查看 
训练 过 程 ， 每 训练 完 20 次 ， 输 出 当前 的 训练 次 数 、w 和 4b 值 ， 具 体 实现 如 下 : 


01 with tf.Session() as sess: 


02  sess.run(init) # 变 量 初始 化 
03 for step in range(1,training epochs): 
04 sess.run(train) 拉练 


05 preW= sess.run(W) 

06 preb= sess.run(b) 

07 if step % 20 == 0: 

08 print (step,\n',preW[OJ[O0],preWI[OI[1],\n',preb[0]) # 输 出 训练 值 
09 sess.close() 


| 4.3.5 sr 

经 过 以 上 步骤 后 ， 可 以 看 到 训练 过 程 中 拟 合 值 的 变化 情况 。 从 图 4.5 中 可 以 看 出 ， 随 
着 训练 的 进行 ， 拟 合 值 与 目标 值 不 断 靠近 。 

在 本 节 中 ， 我 们 再 一 次 使 用 TensorFlow 执 行 了 生成 训练 数据 、 定 义 训练 模型 、 进 行 数 
据 训练 和 运行 总 结 四 个 步骤 ， 完 成 了 二 元 线性 回归 。 在 二 元 线性 回归 中 ， 最 重要 的 是 使 用 
矩阵 运算 法 则 构建 模型 ， 多 元 线性 回归 也 是 在 此 基础 上 进行 拓展 而 来 的 。 
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20 

0.066384204 0.3652406 
0.23973656 

40 

0.10309147 0.23788247 
09.28049332 

6e 

0.10350467 0.20945708 
9.29369 

8e 

0.10158254 0.20255636 
9.2979596 

100 

0.10059223 0.20073645 
9.29934034 

120 

0.100205936 0.20022194 
0.29978675 

140 

0.100069165 0.20006886 
9.29993108 


图 4.5 打印 输出 


k.A 


前 面 讲解 了 线性 回归 ， 解 决 的 问题 是 如 何 通过 一 个 连续 方程 来 预测 未 来 值 。 针 对 从 给 
定数 据 中 学 习 到 的 线性 模型 ， 逻 辑 回 归 用 来 判断 以 后 的 输入 值 与 所 比较 对 象 间 的 “是 ”与 
“ 否 ” 关系 。 


4.4.1 9555s 


对 于 判断 是 与 否 的 问题 ， 输 出 值 yef011， 输 入 值 为 线性 回归 产生 的 预测 值 
zo xb. 从 而 形成 将 z 转 为 ?的 函数 关系 : 


0, z«0 
y= 05, z-0 
1, z>0 


即 预 测 值 小 于 0， 则 判断 为 “ 否 ”; 预测 值 大 于 0， 则 判断 为 “是 ”; 预测 值 为 临界 值 
0， 则 可 任意 判断 ， 函 数 图 像 如 图 4.6 所 示 。 
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3 EI EI EI o 2 4 6 8 E 
546 ”函数 图 像 


对 于 该 函数 关系 ， 很 自然 地 会 想到 一 个 替代 函数 : 
1 
?Te 
这 就 是 我 们 常 说 的 对 数 几率 函数 ， 也 是 一 种 sigmoid 函 数 。 
对 于 该 函数 ， 进 行 展 开 ， 计 算 z 值 : 
y 
wix+b=z= nG sy 


) 


按照 二 项 分 布 ， 值 取 1 时 概率 为 p， 值 取 0 时 概率 q=1-p。 对 该 函数 概率 估计 为 : 


eawTx+b 
1 十 eoTxt+b 


1 
pO=0 | d) = Too 


通过 极 大 似 然 法 估计 w 和 4b 的 值 ， 为 了 计算 预测 结果 与 真实 结果 的 切合 程度 
损失 函数 为 : 


pYy=1| x- 


loss = -Yo log(ypred;) + (1 — y; ) log(1 — ypred;)) 


i=1 


， 计 算出 


EF 行 如 下 四 


理解 了 逻辑 回归 算法 中 最 重要 的 回归 模型 和 损失 函数 后 ， 使 用 TensorFlow 进 
步 编程 即 可 完成 学 习 。 

CD 生成 训练 数据 。 

@ 定义 训练 模型 。 

© 进行 数据 训练 。 

@ 运 行 总 结 。 


[4.4.2 ERI 


我 们 假设 平面 中 存在 点 4(x1,x2)， 如 果 该 点 满足 条 件 x1x2+x2<2， 则 认为 是 一 个 类 
型 ， 满 足 条 件 x1xx2+x2>2 的 是 另 一 个 类 型 。 

对 于 训练 数据 ， 我 们 同样 通过 模拟 生成 。 假 设 在 x 轴 的 (-1,1) 和 y 轴 的 (0,2) 之 间 随 机 获 
取 150 个 点 。 对 于 获取 的 每 一 个 点 ， 依 据 该 点 的 x 轴 值 (x1) 和 y 轴 值 (x2) 计 算出 x1x2+x2， 然 后 
根据 值 与 2 的 关系 ， 对 该 点 进行 类 型 标记 。 当 计算 值 小 于 或 等 于 2 时 ， 标 记 为 0， 大 于 2 时 ， 
标记 为 1。 对 模拟 的 训练 数据 根据 不 同 标记 绘制 不 同 颜 色 的 点 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import matplotlib.pyplot as plt 

03 import numpy as np 

04 # 声 明 数 据 数组 和 标签 

05 data=[] 

06 label-[] 

07 np.random.seed(0) 

08 # 随 机 产生 训练 集 

09 foriin range(150): 

10 x1=np.random.uniform(-1,1) 

11  x2-np.random.uniform(0,2) 

12  ifx1*2*x2«-2: 

139 data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
14 label.append(0) 

15 plt.plot(data[i][0),data([i][1],'go") 

16 else: 

17 data.append((np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
18 label.append(1) 

19 plt.plot(data[i][O], data[i][1],'r*") 

20 # 绘 制图 形 

21 data=np.hstack(data).reshape(-1,2) 

22 label=np.hstack(label).reshape(-1,1) 

23 plt.scatter(data[ : ,0], data[ :, 1], c=label, cmap-"RdBu'", vmin--.2, vmax=1,2, edgecolor-"white") 
24 plt.show() 


运行 上 述 代 码 ， 可 以 看 到 随机 生成 的 训练 数据 ， 如 图 4.7 所 示 。 


200 * * 
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175 ° ee t+ * 
e * * 
150 . * * 
135 v e», a. cw o* n 
. % . Hj one LP 
100 . Ld ee * 
. LJ . 由 it 
*? œ o .. * * 
075 " e" we - : * 
è 
050 Se o e e PH ` 
i : e: LP e. * 
025 e *9 9? e ? e 
" e $ m ù o 
0.00 s “o 
-100 -075 -050 -025 000 025 050 075 100 
图 4.7 训练 数据 
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我 们 已 经 知道 逻辑 回归 模型 预测 值 是 对 线性 回归 预测 值 求 sigmoid 函 数 ， 如 下 所 示 
y = tf.sigmoid(tf.matmul(x, W) + b) 
损失 函数 为 预测 值 与 真实 值 的 切合 程度 ， 对 其 求 平均 值 ， 实 现 如 下 : 


cross entropy = -tf.reduce sum(y * tf.log(y) + (1-y )*tf.log(1-y))/sample size 


在 此 基础 上 ， 完 成 整个 训练 模型 的 具体 实现 如 下 : 


01 # 定 义 变量 

02 x=tf.placeholder(tf.float32,shape=(None,2)) 

03 y -tf.placeholder(tf.float32,shape-(None, 1)) 

04 W - tf. Variable(tf.zeros([2, 1])) 

05 b - tf. Variable(tf.zeros([1])) 

06 # 迎 辑 回归 模型 

07 y = tf.sigmoid(tf.matmul(x, W) + b) 

08 # 计 算 损 失 值 

09 sample size-len(data) 

10 cross entropy = -tf.reduce sum(y. *tf.log(y) + (1-y. ) * tf.log(1-y))/sample size 

11 ARRE 

12 learning rate 20.01 # 学 习 率 

13 cost prev-0O 

: train step = tf.train.GradientDescentOptimizer(learning rate).minimize(cross entropy) 
5 init = tf.global variables initializer() 


4.4.4] 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 ， 获 取 最 终 的 训练 次 数 时 的 w 值 和 b 值 ， 具 体 实现 如 下 : 


01 sess - tf.Session() 

02 sess.run(init) 

03 for iin range(40001): 

O4  sess.un(train step, feed dict-[x:data, y. :label]) 

05 train cost-sess.run(cross entropy, feed dict-(x:data, y :label)) 
06  ifnp.abs(cost prev-train cost)«1e-6: 

07 break 

08 cost prev-train cost 

09  ifi96 2000--0: 

10 print (i,sess.run((W,b,cross entropy],[x:data, y. :label])) 
11 ARRAZA 

12 W val-sess.run(W) 

13 b val-sess.run(b) 

14 sess.close() 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 4.8 所 示 。 


6€ [array([[ 9.98174148] , 

[-0.00151838]], dtype-float32), 
2000 [array([[ 1.88180876], 

[ 0.38590875]], dtype-float32), 
4000 [array([[ 2.64844394], 

[ 0.83563882]], dtype-float32), 
6000 [array([[ 3.12816238], 

[ 1.17445159]], dtype-float32), 
8000 [array([[ 3.487468 ], 

[ 1.44715154]], dtype-float32), 
10000 [array([[ 3.78187323], 

[ 1.67448699]], dtype-float32), 
12000 [array([[ 4.03545713], 

[ 1.86881757]], dtype-float32), 
14000 [array([[ 4.26054049], 

[ 2.03822899]], dtype-float32), 
16000 [array([[ 4.46425056], 

[ 2.18828297]], dtype-float32), 
18000 [array([[ 4.65109348], 

[ 2.32294559]], dtype-float32), 
20000 [array([[ 4.82413387], 

[ 2.44512153]], dtype-float32), 
22000 [array([[ 4.98558855], 

[ 2.55699348]], dtype-float32), 
24000 [array([[ 5.13711691], 

[ 2.66023445]], dtype-float32), 
26000 [array([[ 5.28001976], 

[ 2.75613737]], dtype-float32), 
28000 [array([[ 5.41532373], 

[ 2.84574389]], dtype-float32), 
30000 [array([[ 5.54389906], 

[ 2.92988086]], dtype-float32), 
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UEE 3655 


array([-0.00253333], 
array([-1.47581887], 
array([-2.23620462], 
array([-2.81064558], 
array([-3.27408338], 
array([-3.66306329], 
array([-3.99857593], 
array([-4.29388428], 
array([-4.55791616], 
array([-4.79694891], 
array([-5.01555777], 
array([-5.21718073], 
array([-5.40443754], 
array([-5.57939911], 
array([-5.74370718], 


array([-5.89869642], 


拟 合 值 的 变化 情况 


dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 
dtype-float32), 


dtype-float32), 
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.69197392] 
.32219344] 
.25254235] 
.21857308] 
.19758792] 
.18307295] 
.17232466] 
.16398668] 
.1572945] 
.15178165] 
.147146] 
14318244] 
.13974674] 
.13673414] 
.13406654] 


.13168426] 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 ， 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 模拟 的 


散 点 图 和 拟 合 的 直线 ， 有 具体 实现 如 下 : 


01 # 绘 制 直线 和 散 点 图 

02 w1=W_val[0,0] 

03 w2=W_vall10] 

04 k--w1/w2 

05 b--b val/w2 

06 xxe-np.linspace(- 1,1.2,100) 

07 yy=k*xx+b 

08 plt.plotoocyy) 

09 for i in range(150): 

10  if(label[i]|--0): 

11 plt.plot(data[i][O], data[i]1],'go") 
12 else: 

13 plt.plot(data[i][0], data[i][ 1],'r**) 
14 plt.show() 


运行 上 述 代码 ， 绘 制 拟 合 的 直线 和 模拟 的 散 点 图 ， 如 图 4.9 所 示 。 
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图 4.9 可 视 化 输出 结果 


在 本 节 中 ， 我 们 讲解 了 逻辑 回归 算法 和 具体 实现 ， 并 对 有 不 同 标识 的 数据 进行 了 有 效 
分 类 。 
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本 章 主要 讲解 了 机 器 学 习 算法 中 最 基础 的 两 种 线性 模型 ， 一 种 是 用 于 预测 的 线性 回 
归 模 型 ， 另 一 种 是 用 于 分 类 的 逻辑 回归 模型 。 本 章 通过 讲解 算法 的 基本 原理 以 及 实际 使 用 
TensorFlow 进 行 机 器 学 习 的 四 大 步骤 ， 进 行 了 实践 。 
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支持 向 量 机 


前 面 介绍 了 机 器 学 习 中 最 基础 的 线 
性 模型 ， 并 熟悉 了 使 用 TensorFlow 完 成 
机 器 学 习 训 练 的 基本 过 程 。 接 下 来 将 讲 
解 机 器 学 习 算法 中 经 典 的 支持 向 量 机 。 


E 支持 向 量 机 简介 


支持 向 量 机 (Support Vector Machine) 由 Cortes 和 Vapnik 首 先 提 出 ， 建 立 在 统计 学 习 理论 
的 VC 维 理论 和 结构 风险 最 小 原理 基础 之 上 ， 根 据 有 限 的 样本 信息 在 模型 的 复杂 性 和 学 习 
能 力 之 间 寻 求 最 佳 折 中 ， 以 期 获得 最 好 的 使 用 能 力 。 因 此 ， 支 持 向 量 机 在 解决 小 样本 、 非 
线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ， 并 能 够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 
习 问 题 中 。 


[5.1.1] SVM 基本 型 


支持 向 量 机 最 基本 的 思想 就 是 ， 在 样本 空间 中 找到 线性 可 分 的 直线 或 超 平面 ， 将 不 同 
类 别 的 样本 分 开 。 这 样 的 直线 有 很 多 条 ， 而 支持 向 量 机 认为 最 佳 的 直线 就 是 划分 两 类 目标 
后 有 最 大 距离 的 直线 。 

在 数学 上 ， 我 们 认为 在 样本 空间 中 ， 对 不 同类 别 样本 进行 分 开 的 直线 或 超 平面 可 通过 
线性 方程 来 描述 : 

y=o"x+b 

其 中 ，w = (or oz …;woa)。 如 图 5$.1 所 示 ， 实 线 对 “+” 样 本 与 “-” 样 本 进行 了 

分 类 。 


Python+TensorFlow 机 器 学 习 实战 


图 5.1 支持 向 量 与 间隔 
样本 空间 中 任意 一 点 x 到 超 平面 的 距离 为 : 
loTx+b| 


lloll 
由 于 超 平面 对 样本 进行 了 正确 分 类 ， 我 们 将 分 类 的 一 类 样本 标识 为 “+1”， 将 另 一 类 
样本 标识 为 “-1”。 则 yi = +1 时 ，wTx 十 b > 0; yi 7 7A, ox b«0. iE 
别 向 两 类 样本 平移 时 ， 距 离 超 平面 最 近 的 几 个 训练 样本 点 会 使 得 如 下 等 式 成 立 : 


" +b=+1, y=+1 


oix-*b--1  yj2-1 

此 时 ， 将 这 几 个 训练 样本 点 称 为 “支持 向 量 ”， 而 将 两 个 异类 支持 向 量 到 超 平面 的 距 

离 之 和 称 为 “间距 ”， 值 为 : 
2 
Y Toli 

支持 向 量 机 的 目的 就 是 找到 满足 条 件 且 具有 最 大 间距 的 划分 超 平 面 。 从 公式 中 可 以 很 
明显 地 看 出 ， 为 了 最 大 化 间距 ， 需 要 最 大 化 lloll-+， 可 以 等 价 认为 是 最 小 化 |loll?。 

所 以 ， 我 们 对 满足 假设 条 件 且 最 大 化 间距 的 超 平面 描述 如 下 : 


1 
| min 5 |lolf 
yi(@Tx + b) Z1,i = 1,2,3, .., m 
这 就 是 支持 向 量 机 的 基本 型 。 


1 ， 请 参考 https://en.wikipedia.org/wiki/Suppor vector machine. 
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SVM 核 函数 简介 


前 面 讨论 的 前 提 是 原始 样本 空间 是 线性 可 分 的 ， 但 在 现实 任务 中 ， 原 始 样本 空间 中 并 
不 一 定 存在 能 正确 划分 两 类 样本 的 超 平面 。 对 于 这 种 非 线 性 情况 ，SVM 的 处 理 方法 是 将 
数据 映射 到 高 维特 征 空间 ， 然 后 在 高 维特 征 空间 中 构造 出 最 优 分 离 超 平面 ， 从 而 解决 原始 
空间 中 线性 不 可 分 的 问题 。 

在 数学 上 ， 在 线性 可 分 的 样本 空间 中 ， 可 以 找到 正确 划分 的 超 平面 。 而 对 于 非 线性 情 
况 ， 找 到 映射 函数 pg， 使 得 样本 空间 数据 映射 到 高 维特 征 空间 后 也 能 找到 线性 的 超 平面 ， 
可 表述 为 : 


1 
| mins lloll? 
yi(o (xi) + b) > 1,i = 123, m 
上 述 计算 公式 中 未 知 量 的 个 数 取决 于 参数 w 的 维度 ， 而 w 的 维度 与 变换 后 样本 空间 的 
维度 相同 ， 也 就 是 说 ， 求 解 复杂 度 与 映射 后 样本 的 维 数 正 相关 。 在 把 原始 样本 映射 到 高 维 
特征 空间 时 ， 可 能 存在 将 样本 空间 映射 到 无 穷 维 的 可 能 性 ， 从 而 导致 因 维 度 过 高 而 无 法 求 
解 的 情况 。 
为 了 解决 这 样 的 间 题 ， 在 实际 计算 中 使 用 了 线性 学 习 器 的 对 偶 优化 以 及 数学 计算 的 核 
技巧 (kernel trick)， 从 而 降低 计算 的 复杂 度 ， 甚 至 把 不 可 能 的 计算 变 为 可 能 。 
非 线性 划分 平面 的 对 偶 表 达 式 为 ; 


min( 3 a; ayyiy; 6G) $(xj) 一 Y ai) 


a1 j=1 i=1 


n 
2: yid; — 0 
i-1 


由 于 核 函数 的 一 个 重要 性 质 就 是 ， 低 维 空间 中 向 量 的 核 函 数 计算 结果 等 于 向 量 在 高 维 
空间 中 的 内 积 运算 结果 。 
K(x,xj) =< p) : (xj) > = padol) 
也 就 是 说 ， 可 以 使 用 核 函数 直接 在 样本 空间 中 计算 内 积 。 在 非 线性 划分 平面 的 对 


偶 表 达 式 中 ， 可 以 使 用 K(xi,x)) 代 蔡 @(xD) "g(xj)， 从 而 避免 显 式 的 特征 变换 。 
同样 ， 我 们 求解 的 平面 也 可 使 用 核 函 数 进行 表述 ， 从 而 避免 显 式 的 特征 变换 ， 表 述 方 
式 为 : 


m 


y= wd) bo 》 ay, KG x) b 


i-i 


总 的 来 说 ，SVM 核 函数 的 目的 就 是 解决 将 非 线 性 样本 空间 映射 到 高 维 空 间 时 的 维 灾 


RR 
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难 问题 ， 也 就 是 使 用 核 函 数 实现 特征 从 低 维 到 高 维 的 转换 ， 但 避免 直接 进行 高 维 空间 中 的 
复杂 计算 。 
常用 的 核 函 数 包括 线性 核 、 多 项 式 核 、 高 斯 核 (RBF 核 ) 和 sigmoid 核 等 。 
线性 核 是 最 简单 的 核 函 数 ， 其 表达 式 为 : 
K(x; xj) = xi! xj 
多 项 式 核 是 常用 的 核 函数 ， 其 表达 式 为 : 
K(x; xj) = xix) 


高 斯 核 通常 是 首选 ， 实 践 中 往往 能 表现 出 良好 的 性 能 ， 其 表达 式 为 ; 


= 2 
K(xi xj) = exp ca 

sigmoid 核 函数 让 SVM 实现 了 类 似 多 层 神 经 网 络 的 效果 ， 其 表达 式 为 : 

K(x; xj) = tanh(BxiTxj + 0) 

采用 sigmoid 核 函数 时 ， 不 仅 使 得 SVM 能 够 实现 类 似 多 层 神经 网 络 的 计算 效果 ， 而 且 
不 会 出 现 过 学 习 现象 ， 因 为 SVM 的 理论 基础 决定 了 最 终 求 得 的 是 全 局 最 优 值 而 不 是 局 部 
最 小 值 。 

支持 向 量 机 主要 用 于 解决 分 类 问题 ， 特 别 是 非 线性 以 及 高 维度 的 样本 的 分 类 问题 。 
在 接 下 来 的 章节 中 ， 将 具体 使 用 SVM 算法 来 解决 线性 模型 中 的 问题 以 及 更 高 维度 的 分 类 
问题 。 


EAJ 拟 合 线性 回归 E 


在 前 一 章 中 ， 我 们 使 用 TensorFlow， 通 过 采用 最 小 化 均 方 误差 的 方法 实现 了 对 已 知 点 
的 线性 拟 合 。 在 本 节 中 将 使 用 SVM 算法 思想 来 完成 线性 回归 拟 合 。 

我 们 拟 合 的 直线 使 SVM 的 最 大 间距 能 够 尽 可 能 多 地 包含 已 知 点 ， 且 我 们 认为 被 包含 
的 已 知 点 的 损失 为 0， 损 失 函 数 可 表示 为 : 


max(0, |y; — (x + b)| — 2 
接 下 来 ， 使 用 TensorFlow 具 体 实现 SVM 的 拟 合 线性 回归 。 


5.2.1 Ens 


首先 ， 模 拟 生成 训练 数据 。 我 们 构造 满足 y=3x+5 关 系 的 若干 个 点 ， 并 在 构造 过 程 中 加 
入 一 些 偏差 噪声 点 ， 具 体 实现 如 下 : 


01 import os 
02 os.environ' TF CPP MIN LOG LEVEL7 ='2' 
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03 import tensorflow as tf # 用 于 模型 训练 

04 import matplotlib.pyplot as plt # 用 于 绘制 图 形 

05 import numpy as np # 用 于 科学 计算 

06 np.set_printoptions(threshold=nan) 圭 J 印 内 容 不 限 长 度 
07 tx=np.linspace(-1,1,50,dtype = np.float32) # 生 成 X 

08 noise = np.random.normal(0 , 0.05 , t x.shape) # 生 成 噪声 点 

09 t y=t_x*3.0+5.0+noise # 生 成 y 

10 plt.plot(t x,t y,'k.") # 绘 图 


11 plt.show() 
运行 代码 ， 可 以 看 到 随机 产生 的 训练 数据 ， 如 图 5.2 所 示 。 


-1.00 -0.75 -0.50 -0.25 0.00 025 050 075 100 


Ej5.2 ”训练 数据 


[5.2.2 Ed 


完成 训练 数据 的 生成 后 ， 我 们 来 实现 线性 回归 的 训练 模型 。 在 前 一 章 的 线性 模型 中 ， 
我 们 选择 的 损失 函数 是 最 小 化 均 方 误差 而 在 SVM 模型 中 ， 选 择 的 损失 函数 是 间距 最 小 
值 ， 具 体 实现 如 下 。 


01 x=tf.placeholder(tf.float32) # 占 位 符 

02 y=tf.placeholder(tf.float32) 

03 a=tf.Variable(0.0) # 变 量 节点 

04 b= tf.Variable(0.0) 

05 curr y=x*a+b # 线 性 模型 

06 epsilon-tf.constant([0.25]) # 拟 定 间隔 宽 度 
07 # 损 失 函 数 


08 loss=tf.reduce_sum( tf.maximum(0.,tf.subtract( tf.abs(tf.subtract(curr_y,y)),epsilon))) 
09 optimizer = tf.train.GradientDescentOptimizer(learning rate) 
10 train = optimizer.minimize(loss) 者 川 练 的 结果 是 使 损失 函数 最 小 


| 5.2.3| 进行 数据 训练 


接 下 来 进行 正式 的 数据 训练 。 总 共 训练 1000 次 ， 每 次 的 学 习 率 为 0.001。 为 了 便于 查 
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看 训练 过 程 ， 每 训练 完成 20 次 ， 就 输出 当前 的 训练 次 数 、a、b 以 及 损失 值 ， 最 终 绘制 训练 
集 的 点 和 拟 合 的 直线 ， 具 体 实现 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


learning rate-0.001 
training epochs-1000 
sess = tf.Session() 
sess.run(tf.global_variables_initializer()) 
for i in range(training epochs): 

sess.run(train, {x:t_x, y:t_y}) 

if i % 20==0: 

print (i,sess.run([a,b,loss],{x:t_x, y:t_y})) 

a_val=sess.run(a) 
b_val=sess.run(b) 
print("this model is y=",a_val," * x +",b_val) 
sess.close() 
y_learned=t_x*a_val+b_val 
plt.plot(t xt. y,'k.") 
plt.plot(t xy learned,'g-") 
linewidth-sess.run(epsilon) 
plt.plot(t xy. learned-linewidth,'r--") 
plt.plot(t xy. learned-linewidth,'r--") 
plt.show() 
plt.close() 


[5.2.4 运行 总 结 


经 过 以 上 步骤 ， 我 们 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 如 图 5.3 中 的 左 图 所 


示 。 已 知 点 和 拟 合 的 线条 绘制 如 图 5.3 中 的 右 图 所 示 。 


6 [0.0, 0.050000001, 222.71872] 
20 [0.0, 1.0500001, 172.71872] 
40 [0.025061226, 2.0239997, 125.25589] 
60 [0.16569388, 2.8609998, 89.145157] 
80 [0.43497968, 3.5199993, 63.718941] 


100 [0.78942859, 4.0299993, 44.387306] 
120 [1.1972448, 4.3989992, 29.227699] 
140 [1.6245914, 4.6629992, 16.604044] 
160 [2.0260401, 4.868, 6.4377618] 

180 [2.3225095, 4.9649987, 1.476216] 
200 [2.4613671, 5.0129986, 0.23773324] 
220 [2.5267131, 5.0029993, 0.00077986717] 
240 [2.5285907, 5.0029993, 0.0] 

260 [2.5285907, 5.0029993, 0.0] 

280 [2.5285907, 5.0029993, 0.0] 

300 [2.5285907, 5.0029993, 0.0] 

320 [2.5285907, 5.0029993, 0.0] 

340 [2.5285907, 5.0029993, 0.0] 

360 [2.5285907, 5.0029993, 0.0] 

380 [2.5285907, 5.0029993, 0.0] 

400 [2.5285907, 5.0029993, 0.0] 


从 图 5.3 的 右 


# 学 习 率 
PIRR 
48/& Session 
# 变 量 初始 化 


# 从 训练 集中 开始 训练 


# 关 闭 


# 绘 制 点 
# 绘 制 线 
# 获 取 间 距 


图 5.3 


-100 -075 -050 -025 000 025 
拟 合 结果 输出 
图 中 ， 我 们 可 以 直观 地 感受 到 拟 合 直线 与 已 知 点 的 误差 较 大 。 
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在 定义 模型 时 ， 将 拟定 的 间距 宽度 值 调 小 ， 再 次 进行 训练 。 训 练 对 比 结果 如 图 5.4 
所 示 。 


this model is y= 2.53512 * x 5.01499 this model is y= 2.76427 * x + 4.983 


d 
r ——— M 
-100 -075 -050 -025 000 025 050 075 100 -100 -075 -050 -025 000 025 050 075 100 


图 5.4 调整 间距 宽度 值 后 进行 对 比 输出 
可 以 很 明显 地 看 到 ， 将 间距 宽度 值 调 小 之 后 拟 合 直线 的 误差 更 小 。 


D saram e Ó 


SVM 算法 的 提出 主要 是 为 了 解决 “是 ”与 “和 否 ” 这 样 的 二 值 分 类 问题 ， 这 与 我 们 前 
一 章 中 讲解 的 逻辑 回归 算法 一 样 都 用 于 进行 二 值 预测 。 在 本 节 中 ， 将 使 用 SVM 算法 思想 
来 完成 线性 条 件 下 的 分 类 。 

我 们 知道 支持 向 量 机 就 是 希望 找到 满足 分 类 条 件 yi(wTx + bp) 三 1 并 且 将 间距 ||wl|? 最 
大 化 的 超 平面 ， 这 样 对 于 n 个 数据 点 的 损失 函数 如 下 : 


n 
1 
一 一 A T, 2 
a2, eia yi (ot x + b)) + a||ol] 
t 


数据 点 分 割 正确 时 ，yi(wTx+b) 总 大 于 1， 所 以 左 项 取 的 最 大 值 会 是 9。 这 种 情况 
下 ,损失 函数 只 与 间距 的 大 小 有 关 。 同 时 ， 拟 合 的 分 类 直线 也 允许 存在 误差 点 ， 该 点 跨越 
了 分 类 直线 。a 值 越 大 ， 模 型 就 会 倾向 于 尽量 将 样本 分 割 开 ，a 值 越 小 ， 就 会 有 更 多 的 误差 
点 存在 。 

接 下 来 ， 我 们 使 用 TensorFlow 具 体 实现 SVM 的 逻辑 分 类 。 


5.3.1 EE 


对 于 训练 数据 ， 我 们 通过 模拟 生成 。 随 机 获取 150 个 点 ， 如 果 所 获取 点 的 横 纵 轴 的 计 
算 值 xz1*2+x2 小 于 或 等 于 1， 则 标记 为 0， 如 果 该 计算 值 大 于 1， 则 标记 为 1。 对 这 些 点 进行 
随机 噪声 化 ， 具 体 实现 如 下 : 
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01 import tensorflow as tf 

02 import matplotlib.pyplot as plt 

03 import numpy as np 

O4 # 声 明 数 据 数组 和 标签 

05 data=[] 

06 label-[] 

07 np.random.seed(0) 

08 jHH&tU- EUIS 

09 for iin range(150): 

10  x1-np.random.uniform(-1,1) 
11  x2-np.random.uniform(0,2) 

12  ifx1*2*x2«-21: 

13 data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
14 label.append(0) 

15 plt.plot(x1,x2,'go") 

16 else: 

17 data.append([np.random.normal(x1,0.1),np.random.normal(x2,0.1)]) 
18 label.append(1) 

19 plt.plot(x1,x2,'r*) 

20 HEUTE 

21 data-np.hstack(data).reshape(- 1,2) 
22 label-np.hstack(label).reshape(- 1,1) 
23 plt.show() 


运行 代码 ， 可 以 看 到 随机 产生 的 训练 数据 ， 如 图 5.5 所 示 。 


05 1.0 


图 5.5 训练 数据 


EEE] ose 


前 面 介绍 了 算法 中 的 损失 函数 ， 如 下 所 示 : 


n 
1 
x max(0,1 — yox + b)) + alloll? 
i=1 
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依据 该 函数 ， 训 练 模型 的 具体 实现 如 下 : 


01 # 定 义 变量 

02 x-tf.placeholder(tf.float32,shape-(None,2)) 

03 y. -tf.placeholder(tf.float32,shape-(None, 1)) 

04 W = tf.Variable(tf.zeros([2, 1])) 

05 b= tf.Variable(tf.zeros([1])) 

06 # 线 性 平面 

07 y = (tf.matmul(x, W) + b) 

08 # 计 算 L2 范 数 

09 I2 norm = tf.reduce sum(tf.square(W)) 

10 # 损 失 函 数 

11 alpha = tf.constant([O.1]) 

12 classification term = tf.reduce mean(tf.maximum(O., tf.subtract(1., tf.multiply(y, y. )))) 
13 cross entropy = tf.add(classification term, tf.multiply(alpha, I2. norm)) 

14 # 优 化 器 

15 learning_rate = 0.01 # 学 习 率 

16 cost_prev=0 

17 train_step  tf.train.GradientDescentOptimizer(learning, rate).minimize(cross entropy) 
18 init = tf.global variables initializer() 


[5.3.3 4625s 
接 下 来 进行 正式 的 数据 训练 ， 获 取 最 终 的 o 和 b 值 ， 具 体 实现 如 下 : 


01 sess = tf.Session() 

02 sess.run(init) 

03 for iin range(4000): 

04  sess.run(train step, feed dict-[x:data, y :label]) 

05 train cost-sess.run(cross entropy, feed dict-(x:data, y :label]) 
06 |!oss vec.append(train cost) 

07 ifi96 2007-0: 

08 print (i,sess.run((W,b,cross entropy], (x:data, y. :label])) 

09 ifnp.abs(cost prev-train cost)«1e-6: 

10 print (the step:'i,sess.run(|W,b,cross entropy], [x:data, y. :label])) 
11 break 

12 else: 

19 cost prev-train cost 

14 ARRANO, HA 

15 W_val=sess.run(W) 

16 b_val=sess.run(b) 

17 sess.close() 


运行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 拟 合 值 的 变化 情况 ， 如 图 5.6 所 示 。 
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8 [array([[ 0.00218556], 

[ 0.00571393]], dtype-float32), array([ 0.0046], dtype-float32), array([ 0.99414521], dtype-float32)] 
200 [array([[ 6.21101537], 

[ 9.42050943]], dtype-float32), array([ 0.5544008], dtype-float32), array([ 0.5771203], dtype-float32)] 
400 [array([[ 0.20731157], 

[ 0.32980821]], dtype-float32), array([ 0.71160084], dtype-float32), array([ 0.55983382], dtype-float32)] 
600 [array([[ 6.17950094], 

[ 0.23625083]], dtype-float32), array([ 0.80026525], dtype-float32), array([ 0.55095559], dtype-float32)] 
800 [array([[ 6.14766704], 

[ 0.16895162]], dtype-float32), array([ 0.86692709], dtype-float32), array([ 0.54592812], dtype-float32)] 
1000 [array([[ 0.11682301], 

[ 0.12141257]], dtype-float32), array([ 0.91679257], dtype-float32), array([ 0.54303926], dtype-float32)] 
1200 [array([[ 008591554], 

[ 0.08741403]], dtype-float32), array([ 6.94512248], dtype-float32), array([ 0.54153496], dtype-float32)] 
1400 [array([[ 0.0623391 ], 

[ 9.06149883]], dtype-float32), array([ 0.96118468], dtype-float32), array([ 0.54078603], dtype-float32)] 
1600 [array([[ 0.04599848], 

[ 0.043007 ]], dtype-float32), array([ 0.97391254], dtype-float32), array([ 0.54039657], dtype-float32)] 
the step: 1664 [array([[ 6.04148404], 

[ 0.038268 ]], dtype-float32), array([ 0.97657806], dtype-float32), array([ 0.54031855], dtype-float32)] 


图 5.6 ” 拟 合 值 的 变化 情况 


经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 模拟 的 
散 点 图 和 拟 合 的 直线 ， 具 体 实现 如 下 。 


01 # 绘 制 直线 和 散 点 图 
02 w1=W_val[0,0] 
03 w2=W_val[1,0] 
04 k--w1/w2 

05 b=b_val 

06 xx=np.linspace(-1,1.2,100) 

07 yy=k*xx+b 

08 plt.plot(xx,yy) 

09 foriin range(150): 

10  if(labeli]--0): 

11 plt.plot(data[i][O], data[i][1],'go") 
12 else: 
13 pit.plot(data[i][0], data[i][1],'r**) 
14 plt.show() 


行 上 述 代码 ， 绘 制 拟 合 的 直线 和 模拟 的 散 点 图 ， 如 图 5.7 所 示 。 
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图 5.7 ”将 结果 可 视 化 输出 
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SVM 算法 和 第 4 章 中 的 逻辑 回归 算法 虽然 都 进行 二 值 预测 ， 但 逻辑 回归 算法 试图 找 
到 回归 直线 来 最 大 化 概率 ，SVM 算 法 试图 最 小 化 误差 并 最 大 化 它们 之 间 的 间隔 。 一 般 来 
说 ， 如 果 一 个 问题 的 训练 集中 有 大 量 特征 ， 建 议 使 用 逻辑 回归 ; 而 如 果 训 练 集 的 数据 量 更 
大 或 者 数据 集 是 非 线 性 可 分 的 ， 建 议 使 用 带 核 函 数 的 SVM 算法 。 


7 非 线 性 二 值 分 类 人 


在 前 面 的 章节 中 ， 我 们 使 用 SVM 方式 对 线性 可 分 的 情况 进行 了 处 理 。 在 本 节 中 ， 将 
通过 高 斯 核 函 数 对 高 尾 花 数据 集 这 样 的 非 线性 数据 进行 分 类 ， 以 区 分 是 否 是 山高 尾 。 


[5.4.1 EIE 


iris 也 称 营 尾 花 数 据 集 ， 是 常用 的 分 类 实验 数据 集 。 该 数据 集 包 括 花 苯 长 度 、 花 
苯 宽 度 、 花 办 长 度 和 花瓣 宽度 四 个 属性 ， 以 及 用 于 标识 意 尾 花 属于 Setosa( 山 总 尾 )、 
Versicolour( 杂 色 刘 尾 ) 和 Virginica( 维 吉 尼 亚 间 尾 ) 三 个 种 类 中 哪 一 类 的 标签 。 

scikit learn 的 datasets 模 块 中 包括 对 该 数据 集 的 加 载 使 用 ， 一 共有 150 组 数据 。data 中 保 
存 了 属性 信息 ， 分 别 是 花 苯 长 度 、 花 莹 宽度 、 花 辩 长 度 和 花 斩 宽度。target 中 保存 了 类 型 
标签 ， 分 别 用 0、1、2 代 表 Setosa、Versicolour、Virginica 三 种 类 型 的 花 。 意 尾 花 数 据 集 如 
图 5.8 所 示 。 


f E dats S iNumby erray. 


图 5.8 SEERE% 


作为 二 值 分 类 ， 我 们 使 用 该 数据 集中 的 花 苯 长 度 和 花 苯 宽度 作为 特征 ， 将 是 否 为 山 
意 尾 作为 数据 的 标签 。 对 原始 这 尾 花 数 据 集 提取 两 个 特征 值 并 对 标签 进行 处 理 ， 有 具体 实 
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现 如 下 。 


01 import matplotlib.pyplot as plt 

02 import numpy as np 

03 import TensorFlow as tf 

04 from sklearn import datasets #3 引入 营 尾 花 数据 集 
05 from TensorFlow.python.framework import ops 

06 ops.reset default graph() 

07 from pylab import mpl 

08 mpl.rcParams[font.sans-serif] = [SimHei] 

09 shnsirisiiis Sk , ESKES REANA vals, TetxSEEAy vals 
10 iris = datasets.load iris() 

11 x vals = np.array([[x[0], x[1]] for x in iris.data]) 

12 y. vals = np.array([1 if y==0 else -1 for y in iris.target]) 

13 # 将 数据 按照 是 否 为 山 萤 尾 分 为 两 类 ， 便 于 后 期 绘图 

14 class1_x= [x[0]forixin enumerate(x vals) if y vals[i]-71] 

15 class1 y = [x(1] for i,x in enumerate(x vals) if y vals[i]-71] 

16 class2_x = [x[0] for i,x in enumerate(x vals) if y. vals[i]-7- 1] 

17 class2_y = [x(1] for i,x in enumerate(x vals) if y vals[i]-7-1] 
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本 节 使 用 高 斯 核 函 数 SVM 来 完成 非 线 性 分 类 ， 高 斯 核 函 数 的 表达 式 为 : 


Ilx: — xjll? 
K(x, xj) = exp (一 AO 


而 相应 的 损失 函数 使 用 对 偶 优化 ， 其 表达 式 为 : 


n 1 n n 
max y bi — 33 > yibi(xi xy)yjbj 
i 


[EET 


其 中 ， 


了 


依据 高 斯 核 函 数 以 及 损失 函数 ， 定 义 训练 模型 的 具体 实现 如 下 : 


01 batch_size = 100 

02 x data - tf.placeholder(shape-[None, 2], dtype-tf.float32) 

03 y target = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

04 prediction grid = tf.placeholder(shape-([None, 2], dtype-tf.float32) 
05 b= tf. Variable(tf.random normal(shapez[1,batch. size])) 

06 # 高 斯 核 函 数 只 依赖 x_data 

07 gamma = tf.constant(-10.0) 

08 dist = t.reduce sum(tf.square(x data), 1) 

09 dist = tf.reshape(dist, [71,1]) 

10 sq dists = tf.multiply(2., tf.matmul(x data, tf.transpose(x data))) 
11 my. kernel = tf.exp(tf.multiply(gamma, tf.abs(sq  dists))) # 高 斯 核 函数 
12 # 损失 函数 ， 分 别 计算 前 后 两 部 分 


n 

1 

biy:=0 H. CSB S Say 
zi 
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model_output=tf.matmul(b,my_kernel) 

first_term=tf.reduce_sum(b) 

b vec corss-tf.matmul(tf.transpose(b),b) 

y target cross-tf.matmul(y. target,tf.transpose(y target)) 

second term-tf.reduce sum(tf.multiply(my. kernel,tf.multiply(b vec corss,y target cross))) 
# 损 失 函 数 被 最 小 化 ， 对 计算 公式 取 负 数 

loss=tf.negative(tf.subtract(first_term,second_term)) 

my_opt = tf.train.GradientDescentOptimizer(0.01) 

train_step = my_opt.minimize(loss) 


[5.4.3 进行 数据 训练 

为 了 能 够 直观 地 看 到 训练 结果 ， 需 要 记录 每 次 兴 代 的 损失 向 量 、 准 备 度 以 及 最 终 使 用 
模型 进行 训练 的 预测 标签 值 。 预 测 函 数 用 于 计算 根据 模型 计算 输出 的 标签 值 ， 用 于 后 期 给 
制图 形 。 预 测 核 函 数 与 前 面 的 类 似 ， 只 是 使 用 预测 数据 点 的 标签 值 代 蔡 了 真实 数据 点 的 标 
签 值 ， 具 体 实现 如 下 。 


01 
02 
03 
04 


的 页 测 核 函数 
rA = tf.reshape(tf.reduce sum(tf.square(x data), 1),[-1,1]) 
rB = tf.reshape(tf.reduce sum(tf.square(prediction grid), 1),[- 1,1]) 
pred sq dist  tf.ada(tf.subtract(rA, tf.multiply(2., tf.matmul(x data, 
tf.transpose(prediction grid)))), tftranspose(rB)) 
pred kernel = tf.exp(tf.multiply(gamma, tf.abs(pred sq dist))) 
# 实现 预测 核 函 数 后 ， 创 建 预测 函数 
prediction output = tf.matmul(tf.multiply(tf.transpose( y. target),b), pred kernel) 
prediction = tf.sign(prediction output-tf.reduce mean(prediction output)) 
accuracy = tf.reduce mean(tf.cast(tf.equal(tf.squeeze(prediction), 
tf.squeeze(y. target)) tf.float32)) 
init = tf.global variables initializer() 
sess.run(init) 
for i in range(300): 
rand, index = np.random.choice(len(x vals), size-batch size) 
rand x- x vals[rand index] 
rand y- np.transpose([y. vals(rand index]]) 
sess.run(train step, feed dict-(x data: rand x, y target: rand y]) 
temp loss = sess.run(loss, feed dict-(x data: rand x, y. target: rand yj) 
if (i+1)%20==0: 
print(the step:'i,str(temp loss)) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 。 


EE 运行 总 结 
经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 绘 制 真实 的 
数据 点 图 ， 并 依据 模型 的 预测 结果 实现 颜色 标识 ， 具 体 实 现 如 下 。 
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01 
02 
03 
04 


15 
16 


# 依 据 真实 数据 集 ， 标 记 绘图 

x_min,x_max=x_vals[:, 0].min() - 1, x vals[:, 0].max()+1 

y. min, y max = x vals[;, 1].min() - 1, x vals[:, 1].max() + 1 

XX, yy = np.meshgrid(np.arange(x min, x max, 0.02), 
np.arange(y. min, y max, 0.02)) 

# 获 取 模 型 预测 结果 标识 

grid points = np.c_[xx.ravel(), yy.ravel()] 

grid predictions = sess.run(prediction, 

feed dict-(x data: rand. x, y. target: rand. y,prediction grid: grid. points)) 

grid predictions = grid predictions.reshape(xx.shape) 

# 绘 制图 形 

plt.contourf(xx, yy, grid predictions, cmap=plt.cm.Paired, alpha=0.8) 

plt.plot(class1 x, class1 y, ro) 

plt.plot(class2 x, class2 y, kx) 

plt.title'S V M8 RETE — 4328) 

plt.ylim(1, 5.0]) 

plt.xlim((3.5, 8.5]) 

plt.show() 


运行 上 述 代 码 可 以 直观 地 看 到 结果 ， 如 图 $.9 所 示 。 图 $.9 中 的 点 为 山 昔 尾 ，x 为 非 山 章 


尾 。 使 用 模型 进行 预测 后 ， 用 不 同 颜色 对 结果 进行 展示 ， 从 而 实现 非 线性 划分 。 


SVM 高 尾 花 二 分 类 


图 5.9” 葛 尾 花 二 分 类 的 可 视 化 输出 
同时 ， 也 可 以 很 明显 地 看 出 划分 边界 连续 ， 且 弯曲 程度 较 平滑 。 数 据 集 的 分 割 弯 曲 部 


分 受 高 斯 核 中 的 gamma 值 直接 影响 。 如 果 将 训练 过 程 中 定义 的 值 由 10 调 整 为 100， 则 训练 
结果 如 图 5.10 所 示 。 
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SVM& EE JX 


图 5.10 调整 后 的 可 视 化 输出 


EJ 非 线性 多 类 分 类 e 


fES.A rp, RIDE Ft UE ERROR DOS 82 FE GS Her oS Fe. BRIAG E 
168 S p RAT. ZARRAK IU SS EE. ER HUI HI SV MSTIZOK SCELERE IRE RE 
分 类 。 

SVM 算法 最 初 被 设计 为 一 种 二 值 分 类 器 ， 可 以 使 用 一 些 方法 使 其 能 够 实现 多 类 分 
类 。 主 要 有 两 种 方法 ， 分 别 是 “一 对 一 ”方法 和 “一 对 多 ”方法 。 

“一 对 一 ”方法 指 的 是 在 任意 两 类 样本 之 间 创 建 一 个 二 值 分 类 器 。 预 测 类 别 时 ， 正 
确 率 最 高 的 类 别 便 是 该 位 置 样本 的 预测 类 别 。 如 果 类 别 为 k， 就 必须 创建 kV(k-2)!2! 个 分 类 
器 ， 当 k 值 变 大 时 ， 计 算 代价 也 变 大 。 

“一 对 多 ”方法 指 的 是 为 每 一 类 样本 创建 一 个 分 类 器 。 最 终 的 预测 类 别 是 具有 最 大 
SVM 间隔 的 类 别 。 

在 本 节 中 将 使 用 “一 对 多 ”方法 对 营 尾 花 数据 集中 的 三 种 这 尾 花 进行 区 别 。 


[5.5.1 生成 训练 数据 


对 于 总 尾 花 数 据 集 ， 因 为 被 分 为 三 类 ， 所 以 使 用 “一 对 多 ”方法 时 需要 创建 三 个 分 类 
器 。 我 们 采用 花 苯 长 度 和 花 昔 宽度 作为 两 个 特征 ， 另 外 需要 创建 三 个 标签 值 ， 分 别 标识 是 
否 为 山 膏 尾 、 是 否 为 杂 色 营 尾 以 及 是 否 为 维 吉 尼 亚 言 尾 ， 有 具体 实现 如 下 。 


01 import matplotlib.pyplot as plt 
02 import numpy as np 
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03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
2 
22 


import tensorflow as tf 
from sklearn import datasets 扫 | 入 营 尾 花 数 据 集 
from TensorFlow.python.framework import ops 
ops.reset default graph() 
from pylab import mpl 
mpl.rcParams[font.sans-serif] = [SimHei] 好 | 入 绘图 显示 中 文 
#0 载 iris 数 据 集 ， 将 花 莹 长 度 和 花 莹 宽度 两 个 特征 存 入 x_vals 
iris = datasets.load iris() 
x vals = np.array([[x[0], x[1]] for x in iris.data]) 
XI SERRE SEDET URER, TELULEEy valse 
y. vals1 = np.array([1 if y==0 else -1 for y in iris.target]) 
y. vals2 = np.array([1 if y==1 else -1 for y in iris.target]) 
y. vals3 = np.array([1 if y==2 else -1 for y in iris.target]) 
/ vals = np.array([y. vals1, y vals2, y. vals3]) 
# 将 数据 按照 萤 尾 花 类 型 分 为 三 类 ， 便 于 后 期 绘图 
class x = [x[0] for ix in enumerate(x_vals) if iris.target[i]--0] 
class1. y = [x[1] for ix in enumerate(x. vals) if iris.target[i]--0] 
class2 x = [x[0] for i,x in enumerate(x vals) if iris.target([i 
class2 y = [x(1] for i,x in enumerate(x vals) if iris.target| 
class3 x = [x[0] for i,x in enumerate(x vals) if iris.target[i] 


使 用 高 斯 核 函数 SVM 来 完成 训练 模型 的 定义 ， 有 具体 实现 如 下 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 


22 


batch size - 50 
x data = tf.placeholder(shape-[None, 2], dtype-tf.float32) 
y. target = tf.placeholder(shape-[3, None], dtype-tf.float32) 
prediction grid = tf.placeholder(shape-[None, 2), dtype-tf.float32) 
b = tf. Variable(tf.random normal(shape-[3,batch, size])) 
# 高 斯 核 函 数 只 依赖 x_data 
gamma = tf.constant(-50.0) 
dist = tf.reduce sum(tf.square(x data), 1) 
dist = tf.reshape(dist, [-1,1]) 
Sq dists = tf.multiply(2., tf.matmul(x data, tf.transpose(x data))) 
my. kernel = tf.exp(tf.multiply(gamma, tf.abs(sq. dists))) # 高 斯 核 
刘 此 量 和 矩阵 运算 处 理 
def reshape matmul(mat): 
v1 = tf.expand dims(mat, 1) 
v2 = tf.reshape(v1, [3, batch size, 1]) 
return(tf.matmul(v2, v1)) 
# 损 失 函 数 
first term = tf.reduce sum(b) 
b vec cross = tf.matmul(tf.transpose(b), b) 
y target cross = reshape matmul(y. target) 
second term = tf.reduce sum(tf.multiply(my kernel, tf.multiply(b vec cross, 
y target. cross)),[1,2]) 
loss = tf.reduce sum(tf.negative(tf.subtract(first term, second term))) 
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我 们 使 用 “一 对 多 ”方法 实现 对 间 尾 花 数据 集中 三 种 总 尾 花 的 区 分 ， 在 使 用 模型 进行 
预测 时 ， 由 于 类 别 的 判断 是 根据 具有 最 大 SVM 间隔 的 类 别 进行 的 ， 因 此 使 用 argmax(0) 来 实 
现 该 功能 。 在 训练 过 程 中 ， 对 每 次 迭代 的 损失 向 量 、 准 备 度 以 及 最 终 使 用 模型 进行 训练 的 
预测 标签 值 等 信息 进行 保存 ， 具 体 实现 如 下 。 


01 # 创 建 预测 核 函 数 

02 rA = tf.reshape(tf.reduce_sum(tf.square(x_data), 1),[-1,1]) 

03 rB = tf.reshape(tf.reduce sum(tf.square(prediction grid), 1),[71,1]) 

04 pred sq dist = tf.add(tf.subtract(rA, tf.multiply(2., tf.matmul(x data, 
tf.transpose(prediction grid)))), tf.transpose(rB)) 

05 pred kernel = tf.exp(tf.multiply(gamma, tf.abs(pred sq dist))) 

06 # 创 建 预测 函数 

07 prediction output = tf.matmul(tf.multiply(y_target,b), pred. kernel) 

08 prediction = tf.arg max(prediction output- 
tf.expand dims(tf.reduce mean(prediction output, 1), 1), 0) 

09 accuracy = tf.reduce mean(tf.cast(tf.equal(prediction, tf.argmax(y. target,O)), tf.float32)) 

10 my. opt = tf.train.GradientDescentOptimizer(0.01) 

11 train step = my opt.minimize(loss) 

12 init = tf.global variables initializer() 

13 sess.run(init) 

14 loss vec [] 

15 batch accuracy = [] 

16 for i in range(300): 

17 rand index = np.random.choice(len(x vals), size-batch size) 

18 rand x-x vals[rand index] 

19 rand y -y vals[;rand index] 

20  sess.un(train step, feed dict-[x data: rand x, y target: rand y]) 

21 temp loss = sess.run(loss, feed dict-[x data: rand x, y. target: rand y]) 

22  if(i*1)9620--0: 

23 print(the step:;'i,str(temp loss)) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 5.11 所 示 。 


the step: 19 -294.632 
the step: 39 -564.632 
the step: 59 -834.632 
the step: 79 -1104.63 
the step: 99 -1374.63 
the step: 119 -1644.63 
the step: 139 -1914.63 
the step: 159 -2184.63 
the step: 179 -2454.64 
the step: 199 -2724.64 
the step: 219 -2994.64 
the step: 239 -3264.64 

64 

64 

64 


the step: 259 -3534. 
the step: 279 -3804. 
the step: 299 -4974. 


图 5.11 损失 值 的 变化 情况 
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经 过 以 上 步 又 后 ， 我 们 完成 了 训练 。 为 了 更 直观 地 看 到 最 终 的 训练 结果 ， 需 要 绘制 真 


实 的 数据 点 图 ， 并 依据 模型 的 预测 结果 实现 颜色 标识 ， 具 体 实 现 如 下 。 


时 ， 


01 # 创建 数据 点 的 预测 网 格 ， 运 行 预测 函数 

02 x_min, x_max = x_vals[:, O].min() - 1, x vals[:, 0].max() + 1 

03 y min, y. max = x_vals[:, 1].min() - 1, x_vals[:, 1].max() + 1 

04 xx, yy = np.meshgrid(np.arange(x min, x. max, 0.02), np.arange(y. min, y. max, 0.02)) 

05 grid points = np.c. [xx.ravel(), yy.ravel()] 

06 grid predictions = sess.run(prediction, feed dict-(x data:rand x,y target: rand y, 
prediction grid: grid. points) 

07 grid predictions = grid. predictions.reshape(xx.shape) 

08 plt.contourf(xx, yy, grid predictions, cmap-plt.cm.Paired, alpha=0.8) 

09 plt.plot(class1 x, class1 y, 'ro', label-'l. setosa") 

10 plt.plot(class2. x, class2. y, 'kx', label-'l. versicolor’) 

11 plt.plot(class3 x, class3 y, 'ov', label-'l. virginica") 

12 plttitle(SVM 实 现 营 尾 花 分 类 ) 

13 plt.legend(loc-'lower right") 

14 plt.ylim([-0.5, 3.0]) 

15 plt.xlim([3.5, 8.5]) 

16 plt.show() 


运行 上 述 代码 ， 可 以 直观 地 看 到 结果 ， 如 图 $.12 所 示 。 
SVM 实现 营 尾 花 分 类 


4 5 6 7 8 
图 5.12 ” 葛 尾 花 分 类 的 可 视 化 
在 本 节 中 ， 我 们 实现 了 将 营 尾 花 数据 集 一 次 性 划分 为 三 类 的 分 类 计算 。 
可 以 看 出 ， 所 选取 的 特征 是 花 苯 长 度 和 花 苯 宽度 ， 在 进行 是 否 为 山高 尾 的 二 值 分 类 
通过 它们 能 够 很 好 地 区 别 出 山 意 尾 。 但 在 对 山 意 尾 、 杂 色 意 尾 、 维 吉 尼 亚 意 尾 三 种 分 


类 进行 区 别 时， 选择 的 特征 已 经 出 现 了 大 量 的 数据 交叉 ， 很 难 进行 有 效 的 分 类 。 在 对 营 尾 


花 数 据 集 进 行 分 类 时 ， 可 以 考虑 将 花 葛 和 花瓣 的 属性 作为 特征 进行 分 类 ， 这 会 取得 不 错 的 
效果 。 
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本 章 主要 讲解 了 TensorFlow 中 支持 向 量 机 的 用 法 、 基 本 原理 及 核 函数 。 另 外 ， 还 讲 
解 了 使 用 SVM 完成 线性 回归 拟 合 和 逻辑 回归 分 类 。 对 于 非 线性 数据 的 二 值 分 类 和 多 类 分 
类 ， 介 绍 了 一 些 具体 应 用 。 
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神经 网 络 


神经 网 络 是 TensorFlow 最 擅长 的 机 
器 学 习 领 域 ， 也 是 当前 机 器 学 习 应 用 中 
最 流行 的 算法 。 在 本 章 中 ， 我 们 将 详细 
介绍 神经 网 络 的 原理 以 及 基础 神经 网 
络 、 卷 积 神 经 网 络 和 循环 神经 网 络 等 常 
用 的 神经 网 络 算法 。 


神经 网 络 简介 


T 


人 工 神经 网 络 (Artificial Neural Network，ANN) 是 指 从 信息 处 理 的 角度 对 人 脑 神经 元 系 
统 进行 模拟 ， 建 立 处 理 模型 。 因 此 ， 神 经 网 络 模 型 是 一 种 信息 处 理 模型 ， 由 大 量 的 神经 元 
节点 相互 连接 而 成 ， 如 图 6.1 所 示 。 


A 


Bb 
d) 


SAN 
AN 


隐 层 
图 6.1 神经 网 络 模型 


图 6.1 中 的 每 个 圆圈 都 是 一 个 神经 元 ， 每 条 线 表示 神经 元 之 间 的 连接 。 其 中 ， 神 经 元 
可 以 被 分 成 多 层 ， 层 与 层 之 间 的 神经 元 有 连接 ， 而 层 内 之 间 的 神经 元 没有 连接 。 最 左边 的 


层 称 为 输入 层 ， 该 层 负责 接收 输入 数据 ;最 右边 的 层 称 为 输出 层 ， 可 以 从 该 层 获取 神经 网 
络 的 输出 数据 。 输 入 层 和 输出 层 之 间 的 层 称 为 隐 层 ， 用 于 进行 具体 的 运算 处 理 。 


6.1.1 神经 元 模型 


1943 年 ，Warren McCulloch 和 Walter Pitts 提 出 了 MP 神经 元 模型 ， 该 模型 一 直 沿 用 至 
今 ， 如 图 6.2 所 示 。 


% 


图 6.2 ”MP 神经 元 模型 
在 神经 元 模型 中 ， 神 经 元 接收 来 自 " 个 其 他 神经 元 传递 过 来 的 输入 信息 Coxa x) 
这 些 信息 通过 带 有 权 值 的 连接 线 (wi,w,,w;,…,w,) 进 行 传递 ， 将 神经 元 接收 到 的 总 输入 值 与 
神经 元 的 阀 值 进行 比较 ， 然 后 通过 “激活 函数 ”(activation function) 处 理 ， 从 而 产生 神经 
元 的 输出 y。 
在 数学 上 ， 我 们 可 以 对 该 过 程 进行 如 下 描述 : 


y=f(xwitxwtxwst +X, Wt Ws) 


其 中 ，w* 为 该 节点 的 偏 置 项 。 对 于 该 过 程 ， 我 们 采用 矩阵 方式 来 表示 。 如 果 输 入 矩 
阵 为 : 
xX=[% x xx] 

权重 向 量 为 : 

W 

w, 

WwW=| w, 

Wy 

偏 置 项 向 量 为 : 


b-[wy ws ws wy] 
则 对 应 节点 的 输出 值 就 可 以 表示 为 : 


y-fR(X-w)-«b) 


EA 
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对 于 激活 函数 ， 它 将 输入 值 映射 为 输出 值 “0” 或 “1”， 分 别 对 应 于 神经 元 抑制 和 


神经 元 兴奋 。 常 见 的 激活 函数 多 是 分 段 线 性 函数 和 具有 指数 形状 的 非 线性 函数 ， 主 要 包括 
sigmoid 函 数 、tanh 函 数 和 relu 函 数 。 


1. sigmoid 函 数 
sigmoid 函 数 是 曾经 使 用 范围 最 广 的 一 类 激活 函数 ， 具 有 指数 函数 形状 ， 其 表达 式 
如 下 : 
1 
1+e 
其 图 像 如 图 6.3 所 示 。 


图 6.3 sigmoid 函 数 


sigmoid 函 数 从 物理 意义 上 最 接近 生物 神经 元 ， 可 以 把 它 当 成 神经 元 的 放电 率 ， 在 中 
间 斜 率 比 较 大 的 地 方 是 神经 元 的 敏感 区 ， 在 两 边 斜 率 很 平缓 的 地 方 是 神经 元 的 抑制 区 。 它 
的 输出 映射 区 间 为 (0,D)， 单 调 连续 、 易 于 求 导 ， 在 计算 分 类 的 概率 时 非常 有 用 。 

但 是 sigmoid 函 数 也 存在 一 定 的 缺陷 : 第 一 ， 在 神经 网 络 反 向 传播 的 过 程 中 ， 我 们 需 
要 通过 微分 的 链 式 法 则 来 计算 各 个 权重 的 微分 。 但 是 反 向 传播 经 过 激活 函数 sigmoid 时 ， 
如 果 输 入 值 很 大 或 很 小 ， 权 重 的 微分 就 会 很 小 ， 最 后 会 导致 权重 对 损失 函数 几乎 没有 影 
响 ， 这 样 不 利于 权重 的 优化 ， 从 而 导致 梯度 饱和 问题 第 二 ， 函 数 输 出 不 是 以 0 为 中 心 
的 ， 这 样 会 使 权重 更 新 效率 降低 ; 第 三 ，sigmoid 函 数 要 进行 指数 运算 ， 而 该 运算 对 于 计 
算 机 来 说 比较 慢 。 

2. tanh 函 数 

tanh 函 数 即 双 曲 正切 函数 ， 其 表达 式 如 下 : 

1-e? 
lee 


X 


y= 


其 图 像 如 图 6.4 所 示 。 


图 6.4 tanh 函 数 
可 以 看 出 ，tanh 函 数 的 形态 与 sigmoid 函 数 的 形态 比较 相近 ， 但 它 是 以 0 为 中 心 的 。 因 
此 ， 它 有 效 地 解决 了 收敛 速度 问题 。 同 sigmoid 函 数 一 样 ，tanh 函 数 在 输入 值 很 大 或 是 很 小 
时 ， 梯 度 也 很 小 ， 会 导致 梯度 饱和 问题 。 
3. relu 函 数 
relu 函 数 即 修正 线性 函数 ， 是 目前 最 受 欢迎 的 激活 函数 ， 其 表达 式 如 下 : 


y 7 max(0, x) 


其 图 像 如 图 6.5 所 示 。 


图 6.5 ”relu 函 数 
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可 以 很 明显 地 看 出 ， 当 输入 为 正 数 时 ， 不 存在 梯度 饱和 问题 ， 而 且 relu 函 数 只 有 线性 
关系 ， 计 算 速度 比 sigmoid 和 tanh 函 数 都 要 快 很 多 。 

当然 ，relu 函 数 也 有 缺陷 ， 第 一 ， 当 输入 值 为 负数 时 ，relu 函 数 是 完全 不 被 激活 的 ， 这 
会 导致 对 应 的 权重 无 法 更 新 ， 称 为 “神经 元 死亡 ”。 第 二 ，relu 函 数 的 输出 要 么 是 9， 要 么 
是 正 数 ， 同 样 是 不 以 0 为 中 心 的 函数 。 

在 TensorFlow 中 ， 针 对 神经 元 提供 了 对 应 的 激活 函数 ， 具 体 如 下 : 
tf.sigmoid(x, name-None) 
tf.tanh(x, name-None) 
t£.nn.relu(features, name-None) 
tf£.nn.relu6(features, name-None) 
tf.nn.softplus(features, name-None) 


tf.nn.dropout(x, keep prob, noise shape-None, seed-None, name-None) 


uaaauaoaau 


tf.nn.bias add(value, bias, name-None) 
神经 网 络 层 


对 神经 元 节点 进行 有 机 结合 并 相互 连接 ， 就 构成 了 神经 网 络 模型 ， 如 图 6.1 所 示 。 

假如 输入 数据 的 维度 和 输入 层 神经 元 的 个 数 相同 ， 并 且 输 入 向 量 的 元 素 与 输入 层 的 节 
点 一 一 对 应 ， 则 可 以 通过 运算 获得 隐 层 中 每 个 节点 的 输出 值 。 同 理 ， 可 以 计算 得 到 输出 层 
每 个 节点 的 输出 值 ， 从 而 获得 输出 层 的 输出 向 量 。 同 时 ， 输 出 向 量 的 维度 也 和 输出 层 神 经 
元 的 个 数 相同 。 

如 图 6.1 所 示 ， 在 输入 层 有 三 个 节点 。 我 们 使 用 数学 方式 来 描述 整个 计算 过 程 。 假 设 
为 输入 层 的 三 个 节点 分 别 输入 zi、z、xz。 隐 层 中 第 一 个 节点 的 权重 值 分 别 为 wa、w4、 
wws。 隐 层 中 节点 的 激活 函数 为 x)， 则 根据 神经 元 模型 可 以 得 出 隐 层 的 第 一 个 节点 的 输 
出 值 ; 


Amf X w)+b) 
同 理 ， 可 以 计算 出 该 隐 层 的 其 他 节点 的 输出 值 44、4s、47， 隐 层 的 输出 值 表 达 式 为 


Wa Wi Wa 


"n 
2f|h x a Wa We ze Wa Ws «| 


Was Ws Ws Wa 


wW, 


输出 层 的 结果 为 : 


y-f((-9)«5) 

在 神经 网 络 中 进行 训练 的 过 程 中 ， 就 是 采取 以 上 方式 对 样本 进行 计算 。 对 于 训练 样本 
数据 集 (x,y)， 通 过 输入 值 x 进行 计算 产生 输出 层 的 预测 值 pre Y。 然 后 根据 pre_Y 与 实际 值 y 
之 间 的 误差 ， 进 行 权重 调整 。 

对 于 权重 调整 ， 在 神经 网 络 中 采用 误差 逆 传 播 (error Back Propagation，BP) 算 法 进行 
更 新 调整 ， 如 图 6.6 所 示 。 


ouk ZK-----m 第 j 个 输出 神经 元 的 输入 
9 


B= > whjbn 
h=1 


图 6.6 ”BP 算法 ' 


如 图 6.6 所 示 ，BP 算 法 的 核心 思路 可 以 分 为 如 下 步 又; 

@ 将 每 个 训练 样本 提供 给 输入 层 ， 然 后 通过 逐 层 计算 ， 直 到 产生 输出 层 的 预测 值 pre Y. 

© 计算 输出 层 的 预测 值 pre_Y 与 真实 值 y 之 间 的 误差 ， 将 误差 逆向 传播 至 神经 网 络 的 
神经 元 中 。 

O 根据 误差 调整 神经 元 之 间 的 权重 和 偏差 。 

© 在 调整 后 的 神经 网 络 中 对 训练 样本 进行 计算 和 误差 调整 ， 不 断 进行 循环 迭代 ， 直 
到 满足 停止 条 件 。 

在 BP 算法 中 ， 重 要 的 是 对 损失 函数 的 选择 。 对 于 分 类 问题 ， 最 常用 的 损失 函数 就 是 
softmax 交 叉 焙 损失 (softamx cross entropy loss) 函 数 。TensorFlow 中 也 提供 了 对 应 的 方法 : 

tf.nn.softmax cross entropy with logits(logits, labels, name=None) 

其 中 ， 第 一 个 参数 logits 就 是 神经 网 络 中 最 后 一 层 的 输出 向 量 ， 而 且 此 时 的 logits 未 经 
处 理 。 该 方法 会 对 logits 使 用 softmax 操 作 。 输 出 向 量 的 大 小 为 num_classes， 如 果 使 用 了 
batch， 则 大 小 就 是 [batchsize，mnum_classes] 。 

第 二 个 参数 labels 就 是 数据 实际 的 标签 值 。 

需要 注意 的 是 ， 该 损失 函数 的 返回 值 是 一 个 向 量 而 不 是 一 个 数 。 在 求 损 失 值 时 ， 一 般 
还 需要 使 用 ttreduce mean 操作 ， 对 返回 值 向 量 求 均值 。 

以 上 介绍 的 就 是 最 基础 的 神经 网 络 模型 ， 在 此 基础 上 ， 还 有 卷 积 神经 网 络 和 循环 神经 
网 络 等 。 神 经 网 络 模型 可 以 用 于 解决 回归 问题 ， 也 可 以 用 于 解决 分 类 问题 ， 在 自然 语言 


1 ”请 参考 http://galaxy.agh.edu.pl/~vlsi/Al/backpten/backprop.html。 


aol 
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理 、 图 形 图 像 处 理 等 方面 都 有 突出 表现 。 在 接 下 来 的 章节 中 ， 我 们 将 详细 讲解 常用 的 神经 
网 络 算法 。 


PE i 人 线性 是 和 自 


神经 网 络 模型 的 应 用 范围 十 分 广泛 ， 能 够 解决 分 类 问题 ， 也 可 以 解决 回归 问题 。 在 本 
节 中 ， 我 们 将 通过 一 个 简单 的 拟 合 线性 回归 问题 来 掌握 基础 神经 网 络 模型 的 构建 。 

对 于 最 基础 的 神经 网 络 模型 ， 至 少 需 要 包含 输入 层 和 输出 层 ， 一 般 还 需要 若干 隐 层 。 
其 中 ， 输 入 层 神 经 元 的 个 数 与 输入 向 量 的 维度 相同 ， 输 出 层 神经 元 的 个 数 与 输出 向 量 的 维 
度 相同 ， 而 隐 层 则 根据 实际 需要 进行 神经 元 个 数 的 假定 。 

在 本 节 中 ， 将 构建 一 个 带 一 层 隐 层 的 神经 网 络 模型 ， 用 来 实现 样本 数据 的 线性 拟 合 。 


6.2.1 Ens 


首先 ， 我 们 来 模拟 生成 训练 数据 。 构 造 满足 y=3x+5 关 系 的 若干 个 点 ， 并 在 构造 过 程 中 
加 入 偏差 噪声 点 ， 具 体 实现 如 下 。 


01 import os 

02 os.environ[TF_CPP_MIN_LOG_LEVEL]='2 

03 import TensorFlow as tf # 用 于 模型 训练 

04 import matplotlib.pyplot as plt # 用 于 绘制 图 形 

05 import numpy as np # 用 于 科学 计算 

06 np.set_printoptions(threshold='nan') 寿 J 印 内 容 不 限 长 度 
07 t_x=np.linspace(-1,1,50,dtype = np.float32) # 生 成 x 

08 noise = np.random.normal(0 , 0.05 , t x.shape) # 生 成 噪声 点 

09 ty=t_x*3.0+5.0+noise # 生 成 y 


[EE] 定义 神经 网 络 模型 


神经 网 络 模型 的 定义 主要 可 以 分 为 四 步 ， 分 别 是 构建 输入 层 、 构 建 隐 层 、 构 建 输出 层 
和 定义 损失 函数 。 
很 明显 ， 在 本 例 中 只 需要 输入 x 值 即 可 ， 其 定义 如 下 : 


x=tf.placeholder(tf.float32,[None, 1]) 


我 们 知道 在 神经 网 络 中 需要 得 到 输出 向 量 ， 其 计算 公式 如 下 : 


Wa Ws 1 Wa Wn 
Wo Wi Wo Wn 


Z x x] +[w, Wa Wa Ws 5 


Ws Ws Wa Wn 


要 获取 输出 向 量 ， 需 要 知道 输入 向 量 、 输 入 向 量 的 维度 、 激 活 函数 和 输出 数据 的 维度 。 
在 隐 层 中 ， 首 先 根据 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 如 下 处 理 : 

y- BUR X x+ 偏 置 项 
进行 计算 后 ， 选 择 对 应 的 激活 函数 进行 处 理 即 可 得 到 输出 向 量 。 所 以 ， 通 用 神经 网 络 
层 的 构建 方法 如 下 所 示 : 


01 # 构 建 神经 网 络 层 
02 def add_layer(input,in_size,out_size,activation_function): 


03 Weight=tf.Variable(tf.random_normal([in_size,out_size])) # 权 重 向 量 
04 biases=tf.Variable(tf.zeros([1,0ut_size])) # 偏 置 项 
05 Wx_plus_b=tf.matmul(input,Weight)+biases HE 


06  ifactivation function is None: 

07 outputs-Wx. plus b 

08 else: 

09 outputs=activation_function(Wx_plus_b) 
10 return outputs 


在 本 例 中 ， 总 共有 输入 层 、 隐 层 和 输出 层 。 

口 输入 层 用 于 样本 数据 的 输入 ， 无 须 进行 操作 。 

C) 隐 层 用 于 神经 网 络 中 的 第 一 次 处 理 。 输 入 的 值 为 x， 维 度 为 1。 输 出 值 为 神经 网 络 
的 一 次 处 理 结果 。 假 定 隐 层 为 10 个 节点 ， 则 输出 值 的 维度 为 10。 在 激活 函数 的 选 
择 上 ， 采 用 最 常用 的 relu 函 数 。 

O 输出 层 用 于 神经 网 络 的 预测 值 pre_Y 的 输出 。 输 入 值 为 隐 层 的 输出 值 ， 数 据 维度 
为 10。 最 终 的 输出 数据 为 预测 的 > 值 ， 维 度 为 1。 在 激活 函数 的 选择 上 ， 不 再 使 用 
激活 函数 ， 而 是 直接 获取 预测 值 。 

在 对 比 预 测 值 与 真实 值 之 间 误 差 损失 函数 的 选择 上 ， 使 用 线性 模型 的 最 小 化 均 方 

误差 。 

整个 神经 网 络 的 具体 实现 如 下 : 


01 y=tf.placeholder(tf.float32,[None, 1]) 

02 # 构 建 隐 层 ， 假 设 有 10 个 神经 元 ， 使 用 relu 为 激活 函数 

03 l1=add_layer(x,1,10,activation_function=tf.nn.relu) 

04 # 构 建 输出 层 ， 输 入 值 为 隐 层 的 输出 值 

05 predition=add_layer(l1,10,1,activation_function=None) 

06 # 损 失 函数 

07 loss-tf.reduce mean(tf.reduce sum(tf.square(y-predition),reduction indices-[1])) 
08 train. step-tf.train.GradientDescentOptimizer(0.1).minimize(loss) 


6.2.3] 进行 数据 训练 


接 下 来 将 进行 正式 的 数据 训练 ， 总 共 训 练 1000 次 。 为 了 便于 查看 训练 过 程 ， 每 训练 完 
50 次 ， 输 出 当前 的 训练 次 数 以 及 损失 值 ， 具 体 实现 如 下 : 


01 HII ES RS 
02 init-tf.global variables initializer() 
03 sess-tf.Session() 


403 | 
408. 


Python+TensorFlow 机 器 学 习 实战 


后 ， 


04 sess.run(init) 
05 for i in range(1000): 


06  sess.un(train step/feed dict-pct x,y:t. y]) 


07 if(it1)%50==0: 


08 print(i,sess.run([loss]feed dict-pct x, yt y])) 


[6.2.4 运行 总 结 


经 过 以 上 步骤 后 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 6.7 所 示 。 


49 [0.0064074672] 
99 [0.0043427828] 
149 [0.003446331] 
199 [0.0028689532] 
249 [0.0024878336] 
299 [0.0023611619] 
349 [0.0023192386] 
399 [0.0023038092] 
449 [0.002297339] 
499 [0.0022946629] 
549 [0.002292945] 
599 [0.0022915555] 
649 [0.0022903057] 
699 [0.0022891208] 
749 [0.0022879795] 
799 [0.0022871613] 
849 [0.0022866619] 
899 [0.002286159] 
949 [0.0022856584] 
999 [0.0022851571] 


图 6.7 ”损失 值 的 变化 情况 


可 以 很 明显 地 看 到 ， 在 完成 49 次 训练 后 ， 损 失 值 已 经 非常 小 了 ， 而 学 习 率 则 非常 高 。 
通过 练习 ， 我 们 熟悉 了 构建 神经 网 络 模型 的 重点 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 
定义 损失 函数 。 首 先 ， 通 过 输入 向 量 以 及 输入 向 量 的 维度 构建 输入 层 。 其 次 ， 通 过 隐 层 层 
数 、 每 层 节点 数 、 每 层 激活 函数 的 选择 构建 隐 层 。 再 次 ， 通 过 输出 节点 数 构建 输出 层 。 最 


定义 损失 函数 。 


O MNISTEUREE o (B 


MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 由 美 


国 


家 


标准 与 技术 研究 所 (National Institute of Standards and Technology，NIST) 提 供 ， 是 一 个 经 
典 的 数据 集 。 本 章 接 下 来 的 部 分 将 使 用 常用 的 神经 网 络 算法 分 别 对 该 数据 集 进行 训练 和 
评估 。 


6.3.1 OSEE n 
MNIST 数 据 集 包 含 以 下 4 个 文件 : 


Training set images: train-images-idx3-ubyte.gz 
Training set labels: train-labels-idx1-ubyte.gz 
Test set images: t10k-images-idx3-ubyte.gz 


Test set labels: t1Ok-labels-idx1-ubyte.gz 


这 4 个 文件 分 别 是 训练 集 图 片 文件 、 训 练 集 标记 文件 、 测 试 集 图 片 文件 和 测试 集 标记 


文件 。 


训练 集 有 60 000 个 样本 ， 测 试 集 有 10 000 个 样本 ， 而 且 对 数字 已 经 进行 了 预 处 理 和 格 
式 化 ， 做 了 大 小 调整 并 居中 ， 图 片 尺寸 也 进行 了 固定 。 在 实际 训练 过 程 中 ， 训 练 速度 非常 
快 ， 收 敛 效果 十 分 明显 。 


[6.3.2 数据 集 图 片 文件 
数据 集 图 片 文件 是 IDX3 格 式 的 文件 ， 其 中 训练 集 图 片 文件 train-images-idx3-ubyte 的 格 


x: 


TRAINING SET IMAGE FILE (train-images-idx3-ubyte): 
[value] 


[offset] 
0000 


[type] 

32 bit integer 
32 bit integer 
32 bit integer 
32 bit integer 
unsigned byte 
unsigned byte 


unsigned byte 


0x00000803(2051) 


60000 


?? 


[description] 

magic number 
number of images 
number of rows 
number of columns 
pixel 

pixel 


pixel 


Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means 
foreground (black). 


很 明显 ， 从 文件 格式 中 可 以 看 出 有 60 000 个 样本 ， 每 个 图 片 文件 都 是 28 像 素 X28 像 素 
大 小 。 每 个 像素 也 将 是 进行 训练 时 的 特征 值 。 
对 图 片 文件 代表 的 图 片 进 行 绘制 ， 可 以 看 到 数字 0~9 对 应 的 不 同样 式 的 手写 体 ， 如 


图 6.8 所 示 。 
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图 6.8 ”绘制 图 片 文件 
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6.3.3] 数据 集 标记 文件 


数据 集 标记 文件 是 IDX1 格 式 的 文件 ， 其 中 训练 集 标记 文件 train-labels-idxl-ubyte 的 格 


式 如 下 : 
TRAINING SET LABEL FILE (train-labels-idx1-ubyte): 
[offset] [type] [value] 


0000 32 bit integer 0x00000801(2049) 
0004 32 bit integer 60000 

0008 unsigned byte ?? 

0009 unsigned byte 2? 

XXXX unsigned byte T? 

The labels values are 0 to 9. 


[description] 

magic number (MSB first) 
number of items 

label 

label 


label 


很 明显 ， 从 文件 格式 中 可 以 看 出 有 60 000 个 样本 ， 并 且 对 每 一 张 对 应 的 图 片 进行 了 标 
识 ， 标 识 的 值 为 0-9。 显 然 ， 它 们 分 别 对 应 图 片 中 手写 体 的 0~9。 
接 下 来 ， 我 们 将 通过 神经 网 络 算法 对 MNIST 数 据 集 进行 分 类 处 理 。 


Lu MENT 


神经 网 络 模型 对 于 解决 分 类 问题 有 着 优良 的 性 能 ， 在 本 节 中 ， 将 通过 构建 神经 网 络 模 


型 来 实现 对 MNIST 数 据 集 的 处 理 。 
16.4.1 加载 MNIsTil 练 数据 


关于 MNIST 数 据 集 的 使 用 ， 需 要 导入 input data.py 文 件 ， 使 用 TensorFlow.contrib.learn. 
python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数 据 。 该 方法 首先 从 本 地 读 取 MNIST 数 
据 集 ， 如 果 在 本 地 未 找到 ， 则 从 网 络 中 下 载 。 为 了 保证 不 受 网 络 状 况 的 干扰 ， 可 以 先 从 
http://yann.lecun.com/exdb/mnist/ 下 载 MNIST 数 据 集 。 具 体 实 现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input. data 

04 SBDEEMNISTSdESSE 

05 print('Download and Extract MNIST dataset") 


06 mnist = input data.read data sets('data/, one hot-True) 
07 print("number of train data is 96d" 96 (mnist.train.num examples)) 
08 print("number of test data is 96d" 96 (mnist.test.num examples)) 


09 trainimg 7 mnist.train.images 


10 trainlabel = mnist.train.labels 
11 testimg = mnist.test.images 
12 testlabel = mnist.test.labels 


运行 上 述 代 码 ， 可 以 看 到 ， 在 代码 所 在 的 目录 中 增加 了 一 个 名 为 data 的 文件 夹 ， 且 该 
文件 夹 中 保存 了 MNIST 数 据 集 文件 ， 如 图 6.9 所 示 。 

名 称 

B tl0k-images-idx3-ubyte.gz 

$ t10k-labels-idx1-ubyte.gz 

&B train-images-idx3-ubyte.gz 

$ train-labels-idx1-ubyte.gz 

图 6.9 ”MNIST 数 据 集 文件 


[6.4.2 构建 神经 网 络 模型 


神经 网 络 模型 的 构建 主要 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定义 损失 
函数 。 

在 输入 层 中 ， 只 需要 明确 输入 数据 的 维度 即 可 。 对 于 MNIST 数 据 集 来 说 ， 输 入 的 是 每 
一 个 图 片 文件 ， 维 度 为 28X28=784， 定 义 如 下 : 


x. = tf.placeholder(tf.float32, [None, 784]) 

对 于 隐 层 ， 将 首先 根据 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 如 下 处 理 ， 
yE X x+ 偏 置 项 

然后 经 过 激活 函数 的 非 线性 化 处 理 ， 得 到 输出 向 量 。 所 以 ， 通 用 的 神经 网 络 模型 的 构 

建 方法 如 下 : 

01 # 构 建 神经 网 络 模型 

02 def add_layer(input,in_size,out_size,activation_function): 

03  Weight-tf.Variable(tf.random normal([in size,out. size])) # 权 重 向 量 

04  biases-tf.Variable(tf.zeros([1,out size])) # 偏 置 项 

05  Wx plus b-tf.matmul(input, Weight)*biases HIR 

06  ifactivation function is None: 

07 outputs-Wx. plus b 

08 else: 

09 outputs-activation function(Wx plus b) 

10 return outputs 


在 本 例 中 ， 构 建 了 一 个 最 简单 的 神经 网 络 模型 ， 直 接 从 输入 层 到 输出 层 ， 中 间 不 增加 
隐 层 ， 整 体 模型 如 图 6.10 所 示 。 
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输入 层 输出 层 


图 6.10 ”神经 网 络 模型 的 设计 
对 于 输出 层 ， 最 终 输出 MNIST 数 据 集中 的 0~9 共 10 个 分 类 ， 输 出 值 的 维度 为 10。 


对 于 损失 函数 ， 一 般 选 取 softmax 交 叉 焙 损失 函数 ，TensorFlow 中 也 提供 了 对 应 的 


方法 ; 


tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None) 


其 中 ， 参 数 logits 是 输出 层 的 输出 向 量 ， 参 数 labels 就 是 数据 实际 的 标签 值 。 该 方法 会 
同时 对 输出 向 量 logits 使 用 softmax 操 作 ， 而 softmax 操 作 实 现 的 功能 就 是 将 逻辑 回归 中 预测 


二 分 类 的 概率 问题 推广 到 n 分 类 的 概率 问题 。 

所 以 ， 在 输出 层 之 前 无 须 增加 单独 的 softmax 层 来 完成 softmax 操 作 ， 只 需要 在 输出 
的 输出 向 量 之 后 使 用 该 方法 即 可 。 

对 于 使 用 softmax 回 归 构 建 的 神经 网 络 模 型 ， 具 体 实现 如 下 : 


01 x_=tf.placeholder(tf.float32, [None, 784]) 

02 y. = tf.placeholder(tf.float32, [None, 10]) 

03 失 2 有 隐 层 ， 使 用 通用 的 神经 网 络 层 构建 方法 构建 输入 层 和 输出 层 

04 predition=add_layer(x_,784,10,activation_function=None) 

05 cross entropy - tf.reduce mean( 
tf.nn.softmax cross entropy with logits(labels-y , logits-predition)) # 损 失 函 数 

06 train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) 

07 init = tf.global_variables_initializer() # 全 局 参数 初始 化 器 


[6.4.3 进行 数据 训练 


层 


接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 共 和 迭代 101 次 ， 每 训 


练 完 5 次 ， 输 出 当前 的 训练 次 数 和 损失 值 ， 具 体 实现 如 下 : 


01 training_epochs = 101 3 所 有 样本 迭代 101 次 
02 batch_size = 100 # 每 进行 一 次 迭代 ， 选 择 100 个 样本 


03 display step = 5 

04 sess = tf.Session() 

05 sess.run(init) 

06 for epoch in range(training epochs): 

07 AAE 

08 avg cost-O. 

09 num batch - int(mnist.train.num examples/batch size) 
10  foriin range(num batch): 


11 batch. xs, batch. ys = mnist.train.next batch(batch size) 
12 sess.run(train step, feed dict-(x : batch xs, y : batch ys]) 
13 avg cost += sess.run(cross entropy, feed dict-( 


x : batch. xs, y. :batch ys])/num batch 


EE us 

使 用 测试 集 数 据 对 神经 网 络 模型 进行 评估 。 

在 本 例 中 ， 可 以 使 用 tf.argmax(y,1) 方 法 获取 根据 任意 输入 x 预测 到 的 标记 值 。 将 该 值 
与 实际 值 匹配 ， 并 将 预测 值 转 为 浮 点 数 ， 取 平均 值得 到 准确 率 。 具 体 实现 如 下 : 


01 韦 | 练 一 定 程度 后 ， 用 模型 预测 测试 数据 
02  ifepoch % display. step == 0: 
03 correct prediction = tf.equal(tf.argmax(predition, 1), tf.argmax(y. , 1)) 
04 accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
05 test acc-sess.run(accuracy, feed dict-[x : mnist.test.images, 
y.:mnist.test.labels)) 
06 print("Epoch: 96d/96d cost: %f TEST ACCURACY: %f" 
96 (epoch, training epochs, avg. cost, test acc)) 
07 correct prediction = tf.equal(tt.argmax(predition, 1), tf.argmax(y. , 1)) 
08 accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


运行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 以 及 模型 对 测试 数据 集 准 确 
率 的 提升 ， 如 图 6.11 所 示 。 


Epoch: 000/101 cost: 
Epoch: 005/101 cost: 
Epoch: 010/101 cost: 
Epoch: 015/101 cost: 
Epoch: 020/101 cost: 
Epoch: 025/101 cost: 
Epoch: 830/101 cost: 
Epoch: 035/101 cost: 
Epoch: 640/101 cost: 
Epoch: 045/101 cost: 
Epoch: 050/101 cost: 
Epoch: 055/101 cost: 
Epoch: 060/101 cost: 
Epoch: 065/101 cost: 
Epoch: 070/101 cost: 
Epoch: 075/101 cost: 
Epoch: 080/101 cost: 
Epoch: 085/101 cost: 
Epoch: 690/101 cost: 


.080109927 TEST ACCURACY: 
-333300605 TEST ACCURACY: 
.280366158 TEST ACCURACY: 
-257214798 TEST ACCURACY: 
.242295018 TEST ACCURACY: 
.233575399 TEST ACCURACY: 
227772230 TEST ACCURACY: 
.222964277 TEST ACCURACY: 
.218886445 TEST ACCURACY: 
-214564537 TEST ACCURACY: 
-213363276 TEST ACCURACY: 
-210621012 TEST ACCURACY: 
.209359292 TEST ACCURACY: 
207296082 TEST ACCURACY: 
205890206 TEST ACCURACY: 
.204406129 TEST ACCURACY: 
.202895412 TEST ACCURACY: 
.202550599 TEST ACCURACY: 
-201736267 TEST ACCURACY: 
Epoch: 695/101 cost: @.200965219 TEST ACCURACY: 
Epoch: 100/101 cost: @.200795886 TEST ACCURACY: 


图 6.11 ”损失 值 的 变化 情况 


国 国 国 国 国 国 国 国 国 国 四 四 国 四 四 四 四 四 四 是 


| Pyton*Tensortowssessr E 


Python+TensorFlow 机 器 学 习 实战 


可 以 看 到 ， 最 终 的 准确 率 大 概 为 92.2%。 对 于 这 样 的 准确 率 ， 误 差 还 是 较 大 的 。 


[6.4.5 冤 建 多 层 神经 网 络 模型 


在 MNIST 分 类 处 理 中 ， 我 们 仅仅 构造 了 最 简单 的 神经 网 络 模型 ， 直 接 从 输入 层 到 输出 
中 间 没 有 增加 隐 层 。 如 果 在 输入 层 和 输出 层 之 间 加 入 隐 层 ， 如 图 6.12 所 示 ， 看 看 准确 
有 怎样 的 变化 。 


输入 层 隐 层 输出 层 


层 ， 
率 会 


图 6.12 多 层 神经 网 络 模型 的 设计 
对 于 隐 层 ， 我 们 假设 有 256 个 神经 元 ， 使 用 最 常用 的 relu 函 数 为 激活 函数 ， 具 体 修改 


如 下 : 


01 # 使 用 一 个 输入 层 、 一 个 隐 层 、 一 个 输出 层 

02 n_input = 784# 输 入 层 

03 n_hidden_1 = 256 

04 n classes = 10# 输 出 层 

05 # 构 建 隐 层 

06 |1=add_layer(x_,n_input,n_hidden_1,activation_function=tf.nn.relu) 

07 # 构 建 输出 层 

08 preditionzadd layer(I1,n hidden 1,n classes,activation function-None) 


增加 完 隐 层 后 ， 使 用 优化 后 的 神经 网 络 模 型 对 MNIST 进 行 处 理 ， 运 行情 况 如 图 6.13 


所 示 。 


增加 隐 


Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 
Epoch: 


高 了 准确 率 。 
可 视 化 多 层 神经 网 络 模型 


在 前 面 的 章节 中 ， 我 们 提 到 ， 可 以 使 用 TensorBoard 对 训练 过 程 进行 可 视 化 。 

如 果 要 实现 可 视 化 ， 需 要 在 训练 过 程 中 给 必要 的 节点 添加 摘要 (summary)， 摘 要 会 
收集 该 节点 的 数据 ， 并 标记 第 几 步 、 时 间 戳 等 信息 ， 然 后 写 入 事件 文件 (event file)。 各 
tfsummary.FileWriter 类 提供 了 相关 的 记录 方法 ， 对 各 方法 的 说 明 如 下 。 
summary: 所 有 需要 在 TensorBoard 上 展示 的 统计 结果 。 
tf.name scope(): 为 Graph 对 象 中 的 Tensor 添 加 层级 ，TensorBoard 会 按照 代码 指定 


口 
口 


m] 


的 层级 进行 展示 ， 初 始 状态 下 只 绘制 最 高 层级 的 效果 ， 单 击 后 可 


一 层 的 细节 。 


000/101 cost: 
005/101 cost: 
010/101 cost: 
015/101 cost: 
020/101 cost: 
025/101 cost: 
030/101 cost: 
035/101 cost: 
040/101 cost: 
045/101 cost: 
050/101 cost: 
055/101 cost: 
060/101 cost: 
065/101 cost: 
070/101 cost: 
075/101 cost: 
080/101 cost: 
085/101 cost: 
090/101 cost: 
095/101 cost: 
100/101 cost: 


2.870497101 
0.114470526 
0.074398114 
0.054091319 
0.041263511 
0.033042676 
0.027227487 
0.021811405 
0.017887731 
0.014892190 
0.012180214 
0.010177442 
0.008486077 
0.007336855 
0.006207679 
0.005470255 
0.004743160 
0.004163101 
0.003730915 
0.003379429 
0.003075576 


TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 
TEST ACCURACY: 


图 6.13 ”损失 值 的 变化 情况 
可 以 看 到 ， 在 增加 隐 层 后 ， 最 终 的 准确 率 大 概 为 95.5%。 
对 真实 的 MNIST 数 据 集 使 用 神经 网 络 模型 进行 分 类 处 理 的 过 程 如 下 : 首先 使 用 

softmax Zë X AIR ^K eG 2c EL BO US ETT 428, IETÉA E 7J92.296. RE JIRE RE ARE 


tf.summary.scalar(): 添加 标量 统计 结果 。 
tf.summary.histogram(): 添加 任意 形状 的 Tensor， 统 计 Tensor 的 取 值 分 布 。 

tfsummary.merge_all(): 添加 一 个 合并 操作 ， 表 示 执 行 所 有 summary 操 作 ， 这 样 可 
以 避免 人 工 执行 每 一 个 summary 操 作 。 
tf.summary.FileWriter: 用 于 将 summary 写 入 磁盘 ， 需 要 指定 存储 路 径 logdir。 如 果 
传递 了 Graph 对 象 ， 在 Graph Visualization 中 会 显示 Tensor Shape Information。 执 行 
summary 操 作 后 ， 将 返回 结果 传递 给 add_summary() 方 法 即 可 。 
在 6.4.5 节 中 构造 多 层 神经 网 络 时 ， 我 们 加 入 相关 的 语句 来 记录 相关 信息 ， 例 如 : 


06.868 
0.921 
06.929 
0.937 
0.941 
09.945 
0.948 
9.949 
09.949 
0.951 
09.951 
0.951 
0.953 
0.953 
0.954 
09.953 
0.954 
0.955 
0.954 
0.955 
0.954 


层 ， 再 次 对 数据 集 进 行 分 类 ， 准 确 率 达 到 95% 以 上 。 可 以 看 出 ， 增 加 隐 层 确实 提 


展开 层级 看 到 下 
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01 defvariable_summaries(van): 
02  withtf.name scope('summaries": 
03 mean - tf.reduce mean(var) 


04  tfssummary.scalar('mean', mean) # 在 scalar 中 添加 均值 统计 
05 with t.name scope('stddev?: 

06 Stddev = tf.sqrt(tf.reduce mean(tf.square(var - mean))) 

07  tf.summary.scalar('stddev', stddev) # 在 scalar 中 添加 标准 差 统计 
08 tf.summary.scalar('max, tf.reduce max(var)) # 在 scalar 中 添加 最 大 值 统 计 
09  tfsummary.scalar('min', tf.reduce, min(var)) # 在 scalar 中 添加 最 小 值 统 计 
10  tf.summary.histogram(histogram', var) # 在 histogram 中 添加 统计 


添加 完 统计 项 声明 后 ， 使 用 tf.summary.merge_all() 方 法 将 各 项 内 容 添 加 到 事件 文件 
中 ， 并 使 用 tf.summary.FileWriter() 方 法 指明 文件 的 存放 位 置 。 在 实际 训练 数据 前 添加 相关 
语句 : 


01 merged - tf.summary.merge all() 
02 train. writer = tf-:summary.FileWriter(log dir  '/train', sess.graph) 


完成 训练 后 ， 可 以 在 Anaconda Prompt 中 启用 TensorBoard， 输 入 相应 的 命令 ， 有 具体 
如 下 : 


01 activate tensorflowCpu # 启 用 tensorflow 沙 箱 环境 
02 tensorboard --logdir CAogWmnist. model # 可 视 化 训练 过 程 


执行 上 述 命令 后 ， 会 出 现 正 常 启动 的 提醒 信息 ， 如 下 所 示 : 
TensorBoard 0.4.0 at http://USER-20151007LN:6006 (Press Ctrl+C to quit) 


在 浏览 器 中 访问 本 地 计算 机 的 6006 端 口 ， 例 如 http://USER-20151007LN:6006， 就 能 成 
功 打开 TensorBoard 显 示 界 面 。 

可 以 任意 查看 需要 研究 的 数据 信息 ， 例 如 隐 层 中 各 项 记录 值 的 变化 情况 ， 如 图 6.14 
所 示 。 


Iayer1 
layer1 /biases/summaries/max layer1/biases/summaries/mean layeri /biases/summaries/min 
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6.14 ” 隐 层 中 各 项 记录 值 的 变化 情况 
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还 可 以 查看 损失 值 、 准 确 率 的 变化 情况 ， 如 图 6.15 所 示 。 
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图 6.15 ”准确 率 、 损 失 值 的 变化 情况 
对 于 TensorBoard 可 视 化 ， 读 者 在 后 续 实 践 中 可 以 慢 慢 体会 。 


| VO 郑 积 神经 网 络 e 


卷 积 神经 网 络 (Convolutional Neural Network，CNN) 是 非常 重要 的 一 种 神经 网 络 模 
型 ， 它 在 图 像 、 语 音 识 别 领 域 的 应 用 ， 使 相关 领域 也 都 得 到 重要 突破 。 例 如 ， 谷 歌 的 
GoogleNet、 微 软 的 ResNet 等 ， 甚 至 打败 李 世 石 的 AlphaGo 也 用 到 了 这 种 网 络 。 

接 下 来 将 详细 介绍 卷 积 神经 网 络 及 其 训练 算法 ， 还 将 介绍 如 何 使 用 卷 积 神 经 网 络 实现 
对 MNIST 数 据 集 的 识别 。 


asl 


Python+TensorFlow 机 器 学 习 实战 


卷 积 神经 网 络 简介 


卷 积 神经 网 络 是 在 基础 神经 网 络 之 上 进行 优化 处 理 的 一 种 神经 网 络 模型 ， 主 要 关注 于 
图 像 识别 任务 。 

对 于 图 像 的 处 理 来 说 ， 一 般 有 这 样 的 特征 : 一 是 每 种 图 片 的 像素 点 多 ， 小 的 图 片 为 
320 像 素 X480 像 素 ， 稍 大 的 图 片 为 1024 像 素 X768 像 素 ， 二 是 每 个 像素 与 其 周围 像素 的 联 
系 比较 紧密 ， 与 离 得 很 远 的 像素 的 联系 可 能 就 很 小 了 。 

对 于 这 样 的 任务 如 果 依 然 选择 前 面 章节 中 使 用 的 全 连接 神经 网 络 ， 就 会 出 现 以 下 
问题 。 

第 一 ， 参 数 数量 太 多 。 如 果 输 入 一 张 100 像 素 X 100 像 素 的 小 图 片 ， 输 入 层 就 需要 有 
100X100=10 000 个 节点 。 如 果 神 经 网 络 只 有 一 个 隐 层 ， 并 且 假 定 该 层 只 有 100 个 节点 ， 那 
么 仅仅 这 一 层 就 有 (100X 100)X 100=1 000 000 个 参数 。 这 样 的 参数 数量 已 经 不 小 了 ， 计 算 
已 经 非常 复杂 了 。 在 现实 中 ，100 像 素 X 100 像 素 的 图 片 算是 非常 小 了 ， 如 果 像 素 更 高 一 
点 ， 参 数 数量 就 会 成 倍增 多 ， 实 际 效率 会 非常 低下 。 

第 二 ， 没 有 利用 像素 之 间 的 位 置信 息 。 在 全 连接 神经 网 络 中 ， 一 个 神经 元 将 和 上 
一 层 的 所 有 神经 元 相连 ， 对 于 图 像 处 理 而 言 ， 就 相当 于 把 图 像 的 所 有 像素 等 同 看 待 。 但 
是 ， 图 像 文件 的 特点 表明 每 个 像素 仅 与 其 周围 的 像素 联系 紧密 。 如 果 使 用 全 连接 神经 网 
络 进行 学 习 ， 会 存在 大 量 非常 小 的 权重 值 。 这 些 权重 值 对 整个 处 理 效 果 不 会 起 到 决定 性 
的 作用 ， 但 是 会 消耗 大 量 的 计算 资源 。 这 样 的 神经 网 络 模型 是 非常 低 效 的 ， 也 不 符合 图 
片 的 基本 特征 。 

第 三 ， 全 连接 神经 网 络 在 实际 应 用 中 存在 网 络 层 数 上 的 限制 。 我 们 知道 ， 网 络 层 数 
越 多 ， 学 习 能 力 越 强 ， 但 是 通过 梯度 下 降 方法 训练 深度 全 连接 神经 网 络 会 变 得 更 困难 。 
此 ， 一 般 的 全 连接 神经 网 络 很 难 传递 超过 三 层 。 

为 了 解决 图 像 处 理 中 的 这 些 问题 ， 提 出 了 卷 积 神经 网 络 。 主 要 思想 是 ， 针 对 图 像 处 
理 的 特征 ， 通 过 尽 可 能 保留 重要 的 参数 ， 去 掉 大 量 不 重要 的 参数 ， 以 此 达到 更 好 的 学 习 
效果 。 

在 实际 处 理 中 主要 采取 局 部 连接 、 权 值 共享 和 下 采样 三 种 方式 。 局 部 连接 指 的 是 每 
个 神经 元 不 再 和 上 一 层 的 所 有 神经 元 相连 ， 而 只 和 一 小 部 分 神经 元 相连 ， 从 而 减少 参数 
数量 。 权 值 共享 就 是 一 组 连接 可 以 共享 同一 个 权重 ， 而 不 是 每 个 连接 都 有 一 个 不 同 的 权 
重 ， 从 而 进一步 减少 参数 数量 。 下 采样 就 是 使 用 Pooling 来 减少 每 层 的 样本 数 ， 进 而 减少 
参数 数量 。 

采用 这 样 的 处 理 方式 会 在 全 连接 神经 网 络 的 基础 上 增加 卷 积 层 (Convolution Layer) 和 
池 化 层 (Pooling Layer)， 并 且 使 用 相同 的 权重 矩阵 。 所 以 ， 典 型 的 卷 积 神经 网 络 模型 如 
图 6.16 所 示 。 


unm Lo ë ek sme dk kE SE > 
图 6.16 ”典型 的 卷 积 神经 网 络 模型 

需要 特别 注意 的 是 ， 卷 积 神经 网 络 是 一 种 三 维 的 层 结构 ， 每 层 中 的 神经 元 是 按照 三 维 
排列 的 ， 具 有 宽度 、 高 度 和 深度 。 

其 中 ， 输 入 层 的 宽度 和 高 度 对 应 于 输入 图 像 的 宽度 和 高 度 ， 深 度 默认 为 1。 

卷 积 层 完成 对 原始 图 像 的 卷 积 操作 ， 从 而 得 到 特征 映射 (Feature Map)。 在 图 6.16 所 示 
的 模型 中 ， 在 卷 积 层 中 设置 Filter 为 3， 因 此 获取 到 3 个 特征 映射 (Feature Map). 

池 化 层 对 输入 的 Feature Map 做 下 采样 ， 减 少 每 层 的 样本 数量 ， 得 到 3 个 更 小 的 Feature 
Map。 然 后 继续 进行 卷 积 层 、 池 化 层 处 理 。 

最 后 ， 通 过 全 连接 神经 网 络 得 到 整个 网 络 的 输出 。 


卷 积 层 


在 卷 积 层 中 ， 通 过 在 原始 图 像 上 平移 一 块 块 卷 积 核 来 提取 特征 ， 每 一 个 特征 就 是 一 个 
特征 映射 。 
1. 卷 积 操作 


卷 积 层 中 最 重要 的 操作 就 是 卷 积 操作 。 
卷 积 是 泛 函 分 析 中 的 一 种 积分 变换 ， 是 通过 两 个 函数 f 和 8g 生 成 第 三 个 函数 的 一 种 数 
学 运算 ， 表 示 函 数 / 和 g 经 过 翻转 和 平移 后 重合 部 分 的 面积 。 用 数学 公式 可 以 表示 为 : 


v9 [ f(gt — x) dc 
这 种 表示 方式 针对 的 是 变量 rt 处 于 连续 域 的 情况 ， 对 于 离散 域 来 说 ， 对 应 的 数学 表达 
式 为 : 


-Dr= 2》 fogmn—m) 


m=- 


在 离散 域 中 进行 操作 时 ， 卷 积 核 是 非常 重要 的 一 个 元 素 。 卷 积 核 采取 m Xn 阶 和 矩阵 ， 


为 了 便于 计算 一 般 采 用 n=m。 
卷 积 操作 主要 完成 以 下 操作 : 首先 将 相应 的 元 素 乘 上 卷 积 核 ， 每 个 像素 乘 一 次 ， 然 


后 将 所 有 的 值 相 加 ， 最 后 把 相 加 后 的 结果 赋值 给 中 心 像素 。 移 动 卷 积 和 矩阵 ， 应 用 相同 的 操 
作 ， 直 到 所 有 的 元 素 都 完成 遍历 。 


ael 


Python+TensorFlow 机 器 学 习 实战 


2. 卷 积 运算 

将 卷 积 操作 应 用 到 神经 网 络 计算 中 ， 就 可 以 增强 像素 与 其 周围 像素 的 联系 ， 而 隐藏 与 
其 他 像素 的 关系 。 

对 于 原始 图 片 ， 经 过 卷 积 核 的 运算 过 程 可 以 表述 如 下 : 假定 存在 一 张 原始 图 片 ， 选 用 
一 个 mXn 阶 和 矩阵 作为 卷 积 核 ， 最 终 得 到 wXh 阶 的 特征 映射 ， 如 图 6.17 所 示 。 


原始 图 片 卷 积 核 mXn 特征 映射 wXh 
图 6.17 RHA 
为 了 便于 说 明 具 体 的 计算 过 程 ， 我 们 对 各 元 素 进行 编号 。 
O 对 图 像 的 每 个 像素 进行 编号 ， 假 定 用 x; 表示 原始 图 片 中 的 第 i 行 第 ; 列 元 素 。 
O 对 卷 积 核 的 每 个 权重 进行 编号 ， 用 w,, 表 示 第 m 行 第 n 列 的 权重 值 ， 用 w, 表 示 卷 积 
核 的 偏 置 项 。 
O 对 生成 的 特征 映射 的 每 个 元 素 进行 编号 ， 用 a; 表示 特征 映射 的 第 i 行 第 ; 列 元 素 。 
用 /表示 激活 函数 ， 卷 积 的 计算 公式 如 下 : 


M-1N-1 


ij 三 193 X WmnXitm,j+n +wp) 


m=0 n=0 
从 计算 公式 可 以 看 出 ， 生 成 的 特征 映射 中 的 每 个 元 素 只 与 原始 图 片 中 卷 积 核 大 小 的 周 
围 像素 有 关 。 特 征 映射 的 灰色 块 只 与 原始 图 片 中 的 灰色 块 有 关 。 
计算 得 到 特征 映射 中 的 一 个 元 素 值 后 ， 再 进行 下 一 个 元 素 值 的 计算 ， 此 时 因为 权重 值 
共享 原则 ， 只 需要 平移 卷 积 核 而 不 需要 调整 权重 值 即 可 进行 计算 。 平 移 卷 积 核 的 步 幅 可 以 
设置 为 任意 值 ， 一 般 都 默认 设置 为 1 。 
通过 不 断 地 平移 卷 积 核 ， 最 终生 成 wXh 阶 的 特征 映射 。 
生成 的 特征 映射 的 大 小 由 原始 图 像 大 小 、 卷 积 核 大 小 以 及 平移 步 幅 决定 。 假 定 卷 积 的 
原始 图 像 的 宽度 是 w,， 卷 积 核 的 宽度 是 F， 平 移 步 幅 是 S$。 在 平移 时 ， 原 始 图 像 的 边缘 像素 
可 能 需要 对 周围 采用 补 0(Zero Padding) 操 作 才能 满足 计算 要 求 。Zero Padding 数 量 为 P。 
卷 积 后 生成 的 特征 映射 的 宽度 w, 可 表示 为 : 
i QUEE, 
S 


1 


同 理 ， 卷 积 后 生成 的 特征 映射 的 高 度 忆 可 表示 为 : 


Oh -F2P 
hos 


+1 


3. 多 深度 卷 积 操作 


前 面 已 经 介绍 了 深度 为 1 的 卷 积 层 计 算 方法 。 如 果 卷 积 层 深度 D 大 于 1， 对 应 的 卷 积 核 
深度 也 必须 为 D， 即 拥有 DD 个 不 同 的 卷 积 核 ， 卷 积 的 计算 公式 为 : 


D-1M-1N-1 


daij =f (> > b Wa,m,nXd,i+m,j+n + Wp) 
d=0 m=0 n=0 


在 运算 过 程 中 ， 每 一 个 卷 积 核 都 需要 和 原始 图 像 进行 卷 积 运算 ， 从 而 得 到 对 应 的 特征 
映射 。 所 以 ， 经 过 深度 为 4 的 卷 积 层 后 ， 特 征 映射 的 深度 也 是 4。 

4. TensorFlow 卷 积 函 数 

卷 积 操作 是 构建 神经 网 络 的 重要 支撑 ，TensorFlow 提 供 了 丰富 的 卷 积 函数 ， 可 便捷 地 
实现 卷 积 计算 。 

对 于 二 维 的 图 像 输入 来 说 ， 主 要 包括 以 下 3 个 卷 积 函数 : 


tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 
tf.nn.depthwise_conv2d(input, filter, strides, padding, name=None) 
tf.nn.separable conv2d(input, depthwise filter, pointwise_filter, strides, padding, name=None) 


(1) t£.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, name-None) 

这 是 最 典型 的 一 个 卷 积 函数 ， 用 于 对 输入 数据 input 和 卷 积 核 flter 进 行 操作 ， 计 算 卷 积 
的 结果 。 

O 参数 input 

表示 输入 的 图 像 值 ， 数 据 格式 是 张 量 。 张 量 中 的 数据 类 型 必须 是 float32 或 float64。 作 

为 输入 数据 ， 张 量 被 限定 为 数据 的 格式 ， 格 式 为 [batch, in height, in width, in channels]. 
其 中 ，batch 是 输入 图 片 的 数量 ，in_height 是 图 像 的 高 度 ，in_width 是 图 像 的 宽度 ，in_ 
channels 是 通道 数 。 黑 白 图 像 的 通道 为 1， 彩 色 图 像 的 通道 为 3。 

例如 ， 假 定 输入 的 图 像 为 9 像素 X 9 像素 的 彩色 图 像 (RGB)， 则 张 量 定义 为 
[batch,9,9,3]. 

口 参数 filter 

表示 进行 运算 时 的 卷 积 核 ， 数 据 格式 也 是 张 量 。 张 量 中 的 数据 类 型 必须 与 输入 的 数据 
类 型 相同 。 作 为 运算 时 的 卷 积 核 ， 也 被 限定 了 数据 格式 ， 格 式 为 [filter height, filter width, 
in channels, out_channels]， 分 别 对 应 于 卷 积 核 矩 阵 的 高 度 、 宽 度 以 及 输入 图 像 的 通道 数 、 
卷 积 核 个 数 。 

口 参数 strides 

表示 每 一 维 对 应 的 是 输入 中 每 一 维 的 对 应 移动 步 幅 ， 是 一 个 长 度 为 4 的 一 维 整 型 
数组 。 


于 在 实际 计算 过 程 中 ， 通 常 不 会 对 原始 图 片 的 数据 和 通道 进行 卷 积 操作 ， 即 不 对 输 
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入 的 第 一 维和 第 四 维 进行 卷 积 操 作 ， 因 此 通常 将 strides 定 义 为 [1, X, X, 1] 。 

口 参数 padding 

表示 在 进行 卷 积 计算 时 ， 采 用 卷 积 核 提 取 特 征 映 射 的 方式 ， 取 值 为 SAME 或 VALID。 

在 平移 卷 积 核 时 ， 由 于 移动 步 幅 不 一 定 能 整除 整个 图 片 的 像素 宽度 ， 因 此 将 越过 边缘 
取样 的 方式 称 为 Same Padding， 所 取样 的 面积 和 输入 图 像 的 像素 宽度 一 致 ， 将 把 不 越过 边 
缘 取 样 的 方式 称 为 Valid Padding， 所 取样 的 面积 小 于 输入 图 像 的 像素 宽度 。 

SAME 对 应 于 Same Padding 方 式 ， 输 入 数据 维度 和 输出 数据 维度 相同 ，VALID 对 应 于 
Valid Padding 方 式 ， 输 入 数据 维度 和 输出 数据 维度 不 同 。 

Cj 参数 use_cudnn_ on gpu 

表示 是 否 使 用 GPU 进行 运算 ， 默 认 情况 下 为 True。 

O 参数 name 

表示 操作 的 名 称 ， 使 用 时 进行 自 定义 。 

例如 ， 对 10 张 5 像素 X 5 像素 的 彩色 图 像 (RGB) 进 行 卷 积 操 作 。 卷 积 核 选 择 3X3 的 大 
小 ， 使 用 该 卷 积 函 数 进行 简单 的 计算 操作 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input. dataz tf. Variable(np.random.rand(10,5,5,3),dtype-np.float32) 

05 filter data-tf.Variable(np.random.rand(3,3,3, 1), dtype-np.float32) 

06 y = tf.nn.conv2d(input. data,filter data,strides-[1,3,3,1],padding-'SAME") 
07 print( 答 出 的 结果 为 : , y) 


运行 上 述 代码 ， 显 示 如 下 : 
输出 的 结果 为 : Tensor("Conv2D:0", shape=(10, 2, 2, 1), dtype=float32) 


(2) t£nn.depthwise conv2d(input, filter, strides, padding, name-None) 

同样 ， 该 卷 积 函数 也 将 使 用 输入 维度 为 [batch, in height, in width, in channels]ff]K 
量 ， 通 过 卷 积 核 维度 [filter_height, filter width, in channels, channel _ multiplier] 进 行 运 算 。 
其 中 ，in_channels 上 的 卷 积 核 通 道 为 1， 该 卷 积 函数 将 不 同 的 卷 积 核 独 立地 应 用 于 通道 
channel multiplier 上 ， 然 后 对 所 有 的 结果 进行 汇总 。 最 后 的 输出 有 in_channelsXchannel_ 
multiplier 个 通道 。 

使 用 该 卷 积 函数 对 10 张 为 5 像素 X 5 像素 的 彩色 图 像 (RGB) 进 行 卷 积 操作 ， 具 体 实现 
如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input data tf. Variable(np.random.rand(10,5,5,3),dtype-np.float32) 

05 filter data-tf.Variable(np.random.rand(3,3,3,4),dtype-np.float32) 

06 y = tf.nn.depthwise conv2d(input data,filter data,strides-[1,3,3,1],padding-'SAME") 
07 print( 输 出 的 结果 为 : ,y) 


运行 上 述 代码 ， 显 示 如 下 : 

输出 的 结果 为 : Tensor("depthwise:0", shape=(10, 2, 2, 12), dtype=float32) 

(3) tf.nn.separable conv2d(input, depthwise filter, pointwise filter, strides, padding, 
name-None) 

该 卷 积 函数 利用 几 个 分 离 的 卷 积 核 进行 卷 积 运算 。 其 中 ，depthwise_ filter 的 数据 维度 
是 四 维 [filter height, filter width, in channels, channel multiplier]. pointwise filter itj H 
度 也 是 四 维 [1,1,channel multipliter*in channels,out channels], Jédepthwise _ filter 卷 积 之 后 
的 混合 卷 积 。 

使 用 该 卷 积 函 数 进行 简单 的 计算 操作 ， 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import os 

03 import numpy as np 

04 input data tf.Variable(np.random.rand(10,5,5,3),dtype-np.float32) 

05 depthwise filter-tf.Variable(np.random.rand(3,3,3,4),dtype-np.float32) 
06 pointwise filter = tf. Variable(np.random.rand(1,1,12,20),dtype-np.float32) 
07 y = t.nn.separable conv2d(input data,depthwise filter,pointwise filter, 
strides-(1,3,3,1],padding-'SAME") 

08 print( 和 输出 的 结果 为 : , y) 


运行 上 述 代码 ， 显 示 如 下 : 


输出 的 结果 为 : Tensor("separable_conv2d:0", shape=(10, 2, 2, 20), dtype=float32) 


(4) tf.nn.atrous_conv2d(value, filter, rate, padding, name=None) 
用 于 计算 atrous 卷 积 ， 又 称 为 扩张 卷 积 。 

(5) t£nn.conv2d transpose(value, filter, output shape,strides,padding='SAME',data_format 
—NHWC',name-None) 

用 于 计算 ttnn.conv2d0 的 转 置 。 

(6) tf.nn.conv3d(input, filter, strides, padding, name=None) 
用 于 计算 多 深度 卷 积 计算 ， 使 用 方法 和 萎 nn.conv2d0 类 似 ， 只 是 input 的 数据 维度 shape 
为 五 维 ， 多 了 一 维 in_depth， 格 式 为 [batch, in depth, in height, in width, in channels]. JH 
应 的 filter 数 据 维 度 shape 也 是 五 维 ， 多 了 一 维 filter_depth， 格 式 为 [filter_depth, filter height, 
in_channel,channel_multiplier]。 同 时 ，strides 的 维度 shape 中 也 为 五 维 ， 多 了 一 维 strides_ 
depth， 格 式 为 [strides_batch, strides_depth, strides_height, strides_width, strides_channel]。 

(7) tf.nn.conv3d_tranpose(value, filter, output shape, strides, padding-'SAME', name-None) 

5jtÉnn.conv2d _ transpose() 类 似 ， 用 于 计算 tftnn.conv3d0 的 转 置 。 


池 化 层 


池 化 层 一 般 都 被 应 用 于 卷 积 层 的 下 一 层 ， 主 要 的 作用 是 下 采样 ， 通 过 去 掉 特征 映射 中 
不 重要 的 样本 ， 进 一 步 减少 参数 数量 ， 降 低 网 络 的 复杂 度 。 
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1. 池 化 操作 

池 化 操作 就 是 利用 矩阵 窗口 在 输入 张 量 上 进行 扫描 ， 将 每 个 矩阵 窗口 中 的 值 通过 池 化 
方法 运算 后 取得 相应 的 值 ， 作 为 池 化 后 的 值 ， 以 减少 参数 。 
常用 的 池 化 方法 有 最 大 值 池 化 (max pooling) 和 平均 值 池 化 (average pooling) 两 种 。 其 
中 ， 最 大 值 池 化 就 是 在 zXz 的 样本 中 取 最 大 值 作为 采样 后 的 样本 值 ， 而 平均 值 池 化 就 是 在 
nXn 的 样本 中 取 各 样本 的 平均 值 作为 采样 后 的 样本 值 。 

对 于 深度 为 D 的 特征 映射 ， 各 层 独 立 进行 池 化 ， 因 此 池 化 后 的 深度 仍然 为 D。 

2. 池 化 函数 

池 化 函数 是 降低 卷 积 神经 网 络 计算 复杂 度 的 重要 方法 ， 在 TensorFlow 中 提供 了 相应 的 
卷 积 函数 来 便捷 地 实现 卷 积 计算 。 


tf.nn.avg_pool(value, ksize, strides, padding, name=None) 
tf.nn.max_pool(value, ksize, strides, padding, name=None) 


(1) t£nn.avg pool(value,ksize,strides,padding,name-None) 

使 用 平均 值 池 化 方法 对 池 化 区 域 中 的 元 素 进行 操作 。 

口 参数 value 

一 般 来 说 ， 输 入 值 是 卷 积 之 后 的 特征 映射 ， 它 是 一 个 四 维 的 张 量 ， 数 据 维度 为 [batch, 
height, width, channels]。 

口 参数 ksize 

池 化 窗口 是 一 个 长 度 不 小 于 4 的 整 型 数组 ， 每 一 位 的 值 对 应 于 输入 数据 张 量 中 每 一 
维 [batch,height, width, channels] 的 窗口 对 应 值 。 一 般 来 说 ， 不 会 在 batch 和 channels 上 进 
行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 这 样 ， 参 数 ksize 一 般 设 置 为 [1, height, weight, 1]。 

口 参数 strides 
平移 步 长 是 一 个 长 度 不 小 于 4 的 整 型 数组 ， 指 定 滑 动 窗口 在 输入 数据 张 量 中 每 一 维 
上 的 步 长 。 一 般 来 说 ， 不 会 在 batch 和 channels 上 进行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 这 
样 ， 参 数 strides 一 般 设置 为 [1, stride, stride, 1]。 

口 参数 padding 

同 卷 积 函 数 中 的 padding 规 则 相同 ， 取 值 为 SAAME 或 VALID。 

口 输出 

输出 为 池 化 降 维 后 的 特征 映射 ， 数 据 类 型 和 输入 值 value 保 持 一 致 。 池 化 后 的 维度 计 
算 公 式 为 : 


shape(output) = shap(value) —ksize +1 
strides 
(2) tf.nn.max_pool(value,ksize,strides,padding,name=None) 


使 用 最 大 值 池 化 方法 对 池 化 区 域 中 的 元 素 进行 操作 。 各 参数 与 tf.nn.avg_poo10 方 
法 中 的 类 似 。 


全 连接 神经 网 络 层 


经 过 前 面 的 多 重 卷 积 层 、 池 化 层 处 理 之 后 ， 将 最 终 池 化 层 的 输出 神经 元 节点 与 最 终 的 
层 构建 成 全 连接 神经 网 络 层 即 可 。 


6.5.5] 卷 积 神经 网 络 的 发 展 


卷 积 神经 网 络 最 早 由 LeCun 在 1989 年 提出 ， 其 中 详尽 介绍 了 什么 是 卷 积 神经 网 络 、 为 
什么 要 卷 积 以 及 为 什么 要 池 化 等 相关 内 容 。 

LeCun 在 1998 年 继续 发 展 卷 积 神经 网 络 ， 他 提出 了 LeNet 卷 积 神经 网 络 模型 。LeNet 卷 
积 神经 网 络 模型 包括 两 个 卷 积 层 、 两 个 池 化 层 和 一 个 全 连接 层 ， 这 与 本 节 中 讲解 的 卷 积 神 
经 网 络 基 础 模型 相似 。 但 由 于 当时 运算 速度 受 限 ， 没 有 得 到 足够 的 重视 和 实际 应 用 。 

直到 2012 年 ，AlexNet 卷 积 神经 网 络 模型 的 提出 ， 才 带 来 卷 积 神经 网 络 在 图 形 处 理 方 
面 的 突破 。 

AlexNet 卷 积 神经 网 络 由 5 个 卷 积 层 、5 个 池 化 层 和 3 个 全 连接 层 组 成 ， 最 后 通过 全 连接 
层 的 输出 被 发 送 到 1000 维 的 softmax 层 ， 产 生 1000 类 的 标记 分 布 。 网 络 结构 如 图 6.18 所 示 。 
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图 6.18 AlexNet 卷 积 神经 网 络 模型 

在 该 模型 中 ， 主 要 在 以 下 三 方面 进行 了 改进 。 

(1) 进行 数据 增强 

增加 训练 数据 可 以 有 效 提升 算法 的 准确 率 ， 而 且 也 是 避免 过 拟 合 的 好 方法 。 在 训练 
数据 有 限 的 情况 下 ， 可 以 通过 对 一 些 数 据 进 行 变形 生成 新 的 数据 。 比 如 针对 图 片 的 水 平 翻 
转 、 随 机 平移 、 变 换 部 分 图 像 以 及 给 图 像 增 加 随机 的 光照 等 。 

(2) Dropout 

在 该 模型 中 ， 以 0.5 的 概率 对 每 个 隐 层 神经 元 进行 “休眠 ”， 将 输出 设置 为 0。 以 这 种 
方式 抑制 神经 元 工作 ， 让 这 部 分 神经 元 既 不 参与 前 向 传播 也 不 参与 反 向 传播 。 这 使 得 每 次 
输入 一 个 样本 ， 就 相当 于 让 神经 网 络 尝试 一 个 新 结构 ， 从 而 降低 神经 元 复杂 的 互 适应 关 
系 ， 而 且 神经 网 络 也 更 为 健壮 ， 避 免 了 大 量 的 过 拟 合 情 况 。 

(3) relu 激 活 函 数 

该 模型 使 用 relu 激 活 函数 替代 之 前 流行 的 sigmoid 函 数 ， 使 得 在 SGD 的 收敛 速度 上 比 
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sigmoid 函 数 快 很 多 。 

同时 ， 由 于 GPU 和 大 数据 的 发 展 ， 在 计算 速度 和 训练 数据 上 ， 本 身 就 比 之 前 的 学 习 环 
境 好 很 多 。 

在 此 之 后 ， 卷 积 神经 网 络 不 断 演化 ， 主 要 包括 4 个 方向 : 网 络 加 深 、 增 强 卷 积 层 功 
能 、 从 分 类 任务 到 检测 任务 以 及 增加 新 的 功能 模块 。 

对 于 网 络 加 深 ， 是 对 AlexNet 卷 积 神经 网 络 继续 增加 隐 层 。 例 如 VGGNet， 通 常 有 
16~19 层 。 但 是 ， 随 着 卷 积 神经 网 络 的 层 数 达 到 16 层 之 后 ， 已 经 达到 准确 率 提 升 的 瓶颈 ， 
继续 增加 网 络 层 数 也 很 难 提 升 准确 率 。 

对 于 增强 卷 积 层 功能 ， 最 初 在 论文 Network In Network 中 提出 ， 主 要 针对 传统 卷 积 方 
法 做 了 两 点 改进 : 一 是 将 原来 的 线性 卷 积 层 变 为 多 层 感知 卷 积 层 ， 二 是 将 全 连接 层 改进 为 
全 局 平均 池 化 。 后 来 Google 公 司 提出 了 GoogLeNet 模 型 ， 通 过 增加 卷 积 层 的 深度 和 宽度 来 
增强 卷 积 层 功 能 。 在 深度 上 ， 增 加 了 卷 积 神经 网 络 层 数 ， 层 数 达到 22 层 。 为 了 避免 梯度 消 
失 问 题 ，GoogLeNet 模 型 在 不 同 深度 增加 了 两 个 损失 函数 来 避免 反 向 传播 时 的 梯度 消失 现 
象 。 在 宽度 上 ， 增 加 了 多 种 大 小 的 卷 积 核 ， 但 并 不 将 这 些 全 都 用 在 特征 映射 中 ， 而 是 采取 
降 维 模型 ， 在 3X3、5X5 卷 积 之 前 ， 以 及 最 大 池 化 后 ， 都 分 别 加 上 1X 1 的 卷 积 核 ， 以 此 达 
到 降低 特征 映射 的 目的 。 通 过 算法 的 设计 ， 将 网 络 加 深 和 增强 卷 积 功能 结合 起 来 ， 开 发 
了 ResNet 模 型 。 

对 于 从 分 类 任务 到 检测 任务 以 及 增加 新 的 功能 模块 ， 这 些 都 是 卷 积 神经 网 络 在 后 续 机 
器 学 习 实践 中 不 断 发 展 的 方向 和 所 要 实现 的 功能 。 


OJ 通过 卷 积 神经 网 络 处 理 MNIST r 


在 6.5 节 中 ， 详 细 介绍 了 卷 积 神经 网 络 的 设计 模型 ， 并 详细 讲解 了 卷 积 层 (Convolution 
LayeD 和 池 化 层 (Pooling Layer) 的 计算 方法 以 及 TensorFlow 提 供 的 相关 函数 。 
在 本 节 中 将 通过 构建 卷 积 神经 网 络 模型 来 实现 对 MNIST 数 据 集 的 处 理 。 


6.6.1 pcs SP Tes 


对 于 MNIST 数 据 集 的 使 用 ， 我 们 需要 导入 input_ data.pyXc fF, fi Hi TensorFlow.contrib. 
learn.python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数据 。 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

03 import input. data 

04 def main( ): 

05  4hDnEMNISTÉRESSE 

06  mnist- input data.read data sets('data/, one hot-True) 
07  trainimg = mnist.train.images 

08  trainlabel = mnist.train.labels 


03  testimg = mnist.test.images 
10  testlabel = mnist.test.labels 
11  print("MNIST ready") 


[6.6.2 ueeeeemeum 


卷 积 神经 网 络 模型 的 构建 主要 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定义 
损失 函数 。 

对 于 隐 层 ， 我 们 构建 了 卷 积 层 1- 池 化 层 1- 卷 积 层 2- 池 化 层 2- 全 连接 神经 网 络 层 - 
Dropout 层 。 所 以 ， 构 建 的 整个 卷 积 神经 网 络 模型 如 图 6.19 所 示 。 


输入 层 BREL 池 化 层 1 卷 积 层 2 池 化 层 2 全 连接 神经 网 络 ”Dropout 层 — 输出 层 


图 6.19” 卷 积 神经 网 络 模型 的 设计 


1. 输入 层 
在 输入 层 中 ， 我 们 只 需要 明确 输入 数据 的 维度 即 可 。 对 于 MNIST 数 据 集 来 说 ， 输 入 的 
是 一 张 维 度 为 28X28=784 的 灰 度 图 ， 定 义 如 下 : 


01 n input =784 3 维度 为 28 x 28 的 灰 度 图 ， 像 素 个 数 为 784 
02 x-tf.placeholder(tf.float32, [None, n. input]) 
2. 卷 积 层 1 


对 于 卷 积 层 1， 它 和 全 神经 网 络 中 输出 值 的 处 理 类 似 ， 都 需要 依据 权重 和 偏 置 项 进行 
激活 函数 处 理 ， 可 以 表示 为 : 
yftconv( 权 重 X x) + 偏 置 项 ) 


首先 运行 卷 积 函数 ， 然 后 计算 偏 置 项 ， 最 后 进行 激活 函数 处 理 。 我 们 按照 此 顺序 来 完 
成 卷 积 层 1。 

我 们 使 用 卷 积 函数 tf.nn.conv2d(input, filter, strides, padding, use cudnn on gpu-None, 
name=None) 来 实现 。 

其 中 ，input 为 输入 层 的 输入 数据 ， 维 度 为 [batch, in height, in width, in_channels]， 需 

要 获取 输入 图 像 的 数量 、 高 度 、 宽 度 以 及 通道 数 。 

对 于 每 次 输入 图 像 的 数量 不 做 考虑 ， 标 识 为 -1。MNIST 数 据 集 中 的 图 片 是 28 像 素 X28 
像素 的 灰 度 图 ， 图 片 的 长 宽 都 是 28 像 素 ， 灰 度 图 的 通道 是 1， 如 果 是 RGB 彩 图 ， 则 通道 为 
3。 所 以 输入 数据 为 : 


x image = tf.reshape(x, [-1, 28, 28, 1]) 
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ksize, strides, padding, name=None) 进 行 处 理 。 


filter 作 为 运算 时 的 卷 积 核 ， 维 度 格式 为 [filter height, filter width, in channels, out - 


channels]， 需 要 卷 积 核 矩 阵 的 高 度 、 宽 度 以 及 输入 图 像 的 通道 数 和 卷 积 核 个 数 。 


对 于 卷 积 核 矩 阵 ， 一 般 都 使 用 高 度 与 宽度 相同 的 抢 阵 ， 而 且 为 了 减少 计算 量 ， 大 小 一 


般 选 择 3、5 等 ， 在 这 里 选择 3。 输 入 图 像 为 灰 度 图 ， 通 道 为 1。 为 了 计算 机 运算 的 高 效 性 ， 
卷 积 核 的 个 数 一 般 选择 为 2 的 突 ， 在 这 里 使 用 32。 所 以 卷 积 核定 义 为 : 


W. conv1 =[3, 3, 1, 32] 

strides 是 平移 步 长 ， 对 于 每 一 维度 都 移动 一 步 ， 定 义 为 : 

strides=[1, 1, 1, 1] 

padding 是 卷 积 核 提取 特征 映射 的 方式 ， 一 般 选 择 SAME 方 式 。 

所 以 ， 卷 积 层 1 的 卷 积 函数 实现 为 : 

tf.nn.conv2d(x, W. conv1, strides, padding-'SAME") 

对 于 激活 函数 ， 我 们 使 用 tfnn.relu0) 函 数 。 

在 实现 时 ， 为 了 避免 固定 的 初始 权重 值 导致 出 现 固有 误差 ， 在 初始 化 权重 值 时 ， 使 


an 


正 态 分 布 获 取 随 机 值 作为 权重 的 初始 值 。 具 体 实 现 如 下 : 


01 # 权 重 值 初始 化 函数 

02 def weight_variable(shape): 

03 initial = tf.truncated normal(shape, stddev=0.1) 

O4 return tf. Variable(initial) 

05 # 偏 置 项 初始 化 函数 

06 defbias variable(shape): 

07 initial = t.constant(0.1, shape-shape) 

08 return tf. Variable(initial) 

09 # 卷 积 计算 函数 

10 def conv2d(x, W): 

11 return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding-'SAME") 
12 # 定 义 卷 积 神经 网 络 函数 

13 def CNN mnist(x): 

14 # 命 名 ,便于 可 视 化 展示 

15 with t.name scope('reshape?: 

16 # 定 义 图 像 数据 

17 x image = tf.reshape(x, [-1, 28, 28, 1]) 

18 # 实 现 卷 积 层 1 

19 with tf.name_scope('conv1'): 

20 W_conv1 = weight_variable([3, 3, 1, 32]) PERIZ 
21 b convi-bias variable([32]) 

22  h conv1 = tf.nn.relu(conv2d(x image, W conv1) + b conv1) 


3. 池 化 层 1 
相 比 于 卷 积 层 1， 池 化 层 1 更 简单 ， 可 以 使 用 最 大 值 池 化 函数 tf.nn.max_pool(value，, 


其 中 ，value 是 卷 积 层 的 输出 值 ， 池 化 层 1 可 直接 使 用 卷 积 层 1 的 输出 值 h_conv1。 


ksize 是 针对 输入 值 每 一 个 维度 [batch,height, width, channels] 的 池 化 窗口 的 大 小 。 我 们 
不 对 batch 和 channels 维 度 进行 池 化 ， 而 是 对 height 和 width 选择 使 用 2X2 的 窗口 进行 池 化 处 
理 ， 因 此 池 化 窗口 定义 为 : 

ksize=[1, 2, 2, 1] 

strides 是 在 输入 数据 张 量 每 一 维 [batch,height, width, channels] 上 的 平移 步 长 。 不 会 在 
batch 和 channels 上 进行 池 化 ， 所 以 将 这 两 个 维度 设 为 1。 设 置 height 和 width 的 移动 步 长 为 
2， 则 步 长 定义 为 : 

strides=[1, 2, 2, 1] 

padding 和 卷 积 函数 中 的 padding 规 则 相同 ， 一 般 选 择 SAME 方 式 。 

因为 后 续 池 化 层 依然 使 用 这 一 方法 进行 池 化 ， 所 以 池 化 层 函 数 定 义 为 : 

01 def max_pool_2x2(x): 

02 return tf.nn.max pool(x, ksize7[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 

在 池 化 层 1 中 的 具体 实现 如 下 : 

01 with t.name scope('pool1?: 


02 Mh pool! = max pool 2x2(h conv1) 


4. 卷 积 层 2 与 池 化 层 2 
卷 积 层 2 与 卷 积 层 1 类 似 ， 最 主要 的 是 明确 运算 时 的 卷 积 核 。 依 然 选 择 大 小 为 3 的 卷 积 
和 矩阵。 输入 值 为 池 化 层 1 的 输出 值 ， 有 32 个 特征 上 映射， 图像 通道 个 数 为 32。 卷 积 核 的 个 数 
在 卷 积 层 1 的 基础 上 有 所 增加 ， 使 用 的 是 64。 所 以 卷 积 核定 义 为 : 
W_conv1 = [3, 3, 32, 64] 
池 化 层 2 与 池 化 层 1 类 似 ， 依 然 选 择 使 用 2X2 的 窗口 进行 池 化 处 理 。 
所 以 ， 卷 积 层 2 与 池 化 层 2 的 具体 实现 如 下 ; 


01 # 定义 卷 积 层 2 以 及 池 化 层 2 

02 with tf.name scope('conv2?: 

O3 W conv2- weight. variable([3, 3, 32, 64]) 

04 b conv2- bias variable([64]) 

05 hh conv2 = tf.nn.relu(conv2d(h pool1, W. conv2) + b conv2) 
06 with tf.name scope('pool2): 

07 h_pool2 = max pool 2x2(h conv2) 


5. 全 连接 神经 网 络 层 

全 连接 神经 网 络 层 将 经 过 池 化 层 2 处 理 后 的 所 有 神经 元 节点 作为 全 连接 神经 网 络 的 输 
入 层 神经 元 。 所 以 ， 关 键 就 是 获得 池 化 层 2 处 理 后 的 神经 元 节点 的 个 数 。 
在 进行 池 化 层 2 处 理 后 ， 总 神经 元 节点 数 的 计算 公式 为 : 单个 特征 映射 X 特 征 映 射 个 
数 。 其 中 特征 映射 个 数 为 64 个 ， 单 个 特征 映射 由 原始 图 像 的 28X28， 经 过 一 次 池 化 后 为 
14X14， 经 过 第 二 次 池 化 后 为 7X7， 总 神经 元 节点 数 为 7X7X64 个 。 
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根据 全 连接 神经 网 络 的 计算 方法 ， 将 神经 元 节点 的 对 应 连接 线 的 权重 和 偏 置 项 进行 如 
TAE: 


yE X x+ 偏 置 项 
假定 后 续 的 Dropout 层 有 1024 个 节点 ， 使 用 relu 为 激活 函数 。 构 建 全 连接 神经 网 络 层 的 
具体 实现 如 下 : 


01 # 定 义 fc1， 将 两 次 池 化 后 的 神经 元 转换 为 1D 向 量 

02 with tf.name scope('fc1": 

O3 W fc1- weight variable([7 * 7 * 64, 1024]) 

04 b fci-bias variable([1024]) 

05 h_pool2 flat = tf.reshape(h_pool2, [-1, 7*7*64]) 

06 Mh fc1 -t.nn.relu(tf.matmul(h pool2 flat, W fc1) + b fc1) 


6. Dropoutiz 


在 全 连接 神经 网 络 中 ， 为 了 防止 或 减轻 过 拟 合 会 使 用 函数 tf.nn.dropout。 该 函数 的 作 
用 就 是 让 神经 网 络 中 的 神经 元 随机 出 现 “休眠 ”， 让 这 些 “ 休 眠 ”的 神经 元 不 参与 神经 网 
络 模型 的 本 次 运算 。 通 过 这 样 的 方法 ， 使 得 每 输入 一 个 样本 进行 运算 时 ， 相 当 于 在 神经 网 
络 的 一 个 新 结构 中 进行 运算 ， 从 而 降低 了 出 现 过 拟 合 的 情况 。 具 体 实 现 如 下 : 


01 # 为 了 减轻 过 拟 合 ， 使 用 Dropout 层 

02 with tf.name scope('dropout): 

03 keep prob = tf.placeholder(tf.float32) 

O4  h fci drop -tf.nn.dropout(h fc1, keep prob) 


7. 输出 层 


对 于 输出 层 ， 输 入 值 为 Dropout 层 的 输出 值 ， 有 1024 个 节点 。 输 出 为 MNIST 数 据 集 中 
的 0~9 共 10 个 分 类 ， 输 出 值 的 维度 为 10， 具 体 实现 如 下 : 


01 # 和 连接 输出 层 

02 with t.name scope('fc2^: 

03 W fc2-7 weight variable([1024, 10]) 

04 b fc2-bias variable((10]) 

05 y conv = tf.matmul(h fc1 drop, W fc2) + b fc2 
06  print("CNN READY") 

07 return y. conv, keep prob 


8. 损失 函数 
对 于 损失 函数 ， 还 是 选取 最 常用 的 softmax 交 又 炉 损失 函数 。 所 以 ， 构 建 整 个 模型 的 
具体 实现 如 下 : 


01 # 定 义 输入 placeholder 

02 x = tf.placeholder(tf.float32, [None, n. input]) 

03 y. = tf.placeholder(tf.float32, [None, n. output]) # 用 于 保存 真实 的 label 
04 #j 进 行 卷 积 神经 网 络 训练 


05 y conv, keep prob = CNN mnist(x) 

06 # 定义 损失 函数 

07 with tf.name scope(loss": 

08 cross entropy = tf.nn.softmax cross entropy with logits(labels-y ;logitszy conv) 
09 cross entropy = tf.reduce mean(cross entropy) 


10 4 优化 器 
11 with tf.name scope('adam optimizer): 
12 train. step = tf.train.AdamOptimizer(0.001).minimize(cross entropy) 


6.6.3 re DT 
接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 总 迭代 1001 次 ， 每 训 


练 完 100 次 ， 输 出 当前 的 训练 状态 ， 具 体 实现 如 下 : 


01 # 定义 评测 准确 率 的 操作 
02  withtf.name scope('accuracy: 


03 correct prediction = tf.equal(tf.argmax(y. conv, 1), tf.argmax(y. , 1)) 
04 correct prediction = tf.cast(correct prediction, tf.float32) 
05 accuracy  tf.reduce mean(correct prediction) 


06 # 初始 化 所 有 参数 

07  init-tf.global variables initializer() 

08 sess -tf.Session() 

09  sess.run(init) 

10 training epochs = 1001 # 所 有 样本 和 迭代 1000 次 

11 batch size = 100 # 每 进行 一 次 迭代 选择 100 个 样本 
12 display step = 100 

13  foriin range(training epochs): 

14 avg. cost = 0. 

15 total batch = int(mnist.train.num examples/batch size) 
16 batch 7 mnist.train.next batch(batch size) 

T7 train. step.run(feed  dict-pcbatch([0], y. :batch[1], keep. prob:0.7]) 


[6.6.4 use 
使 用 测试 集 数 据 对 神经 网 络 模型 进行 评估 ， 在 每 完成 100 次 训练 后 ， 输 出 当前 模型 对 
于 训练 集 和 测试 集 的 准确 率 ， 具 体 实现 如 下 : 


01 ifi% display_step ==0: # 每 100 次 训练 ， 对 准确 率 进行 一 次 测试 
02 train accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep. prob: 1.0} 
03 print('step 96d, training accuracy %g' 96 (i, train accuracy)) 
04 test accuracy = accuracy.eval(feed dict-[x:mnist.test.images, 
y. .:mnist.test.labels, keep prob:1.0)) 
05 print(test accuracy %g' 96 (test accuracy)) 


运行 上 述 代 码 ， 可 以 看 到 在 训练 过 程 中 准确 率 的 提升 情况 ， 如 图 6.20 所 示 。 
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Saving graph to: C:\Users\ADMINI~1\AppData\Local\Temp\tmp4n38or9p 
step 0, training accuracy 0.21 
test accuracy 0.1198 

step 100, training accuracy 0.87 
test accuracy 0.8818 

step 200, training accuracy 0.9 
test accuracy 0.9301 

step 300, training accuracy 09.95 
test accuracy 0.9468 

step 400, training accuracy 0.98 
test accuracy 0.9536 

step 500, training accuracy 0.96 
test accuracy 0.9598 

step 600, training accuracy 0.98 
test accuracy 0.9637 

step 700, training accuracy 0.93 
test accuracy 0.9664 

step 800, training accuracy 0.99 
test accuracy 0.9705 

step 900, training accuracy 0.99 
test accuracy 0.9717 

step 1000, training accuracy 0.97 
test accuracy 0.973 


图 6.20 ”查看 准确 率 的 提升 情况 


可 以 看 到 ， 对 于 测试 集 的 准确 率 达 到 97% 以 上 ， 并 且 还 在 上 升 。 所 以 ， 卷 积 神经 网 络 
是 目前 比较 好 的 图 像 识别 算法 。 


E mreana RN A 


循环 神经 网 络 (Recurrent Neural Network，RNN) 是 在 自然 语言 处 理 领域 中 最 先 被 使 用 
的 处 理 模 型 ， 在 自然 语言 处 理 方面 有 着 良好 的 应 用 。 

接 下 来 将 详细 介绍 循环 神经 网 络 及 其 常见 模型 ， 并 使 用 一 个 循环 神经 网 络 来 实现 对 
MNIST 数 据 集 的 识别 。 


[6.7.1 待 环 神经 网 络 简介 


在 前 面 章 节 中 介绍 了 全 连接 神经 网 络 和 卷 积 神经 网 络 。 在 训练 和 预测 阶段 ， 它 们 都 
只 单独 地 取出 每 个 输入 ， 经 过 处 理 后 给 出 输出 ， 前 一 个 输入 和 后 一 个 输入 是 完全 没有 关系 
的 ， 在 输入 上 是 可 以 随机 的 。 

但 是 ， 某 些 任务 需要 前 一 个 输入 和 后 一 个 输入 有 关联 关系 。 比 如 ， 当 我 们 在 理解 一 句 
话 的 意思 时 ， 孤 立地 理解 这 句 话 的 每 个 词 是 不 够 的 ， 我 们 需要 处 理 这 些 词 连接 起 来 的 整个 
序列 ， 当 我 们 处 理 视频 时 ， 也 不 能 只 单独 去 分 析 每 一 帧 ， 而 要 分 析 这 些 帧 连接 起 来 的 整个 
序列 。 

循环 神经 网 络 在 基础 神经 网 络 模型 中 增加 了 循环 机 制 ， 使 得 信号 从 一 个 神经 元 传递 到 
另 一 个 神经 元 后 ， 其 值 并 不 会 马上 消失 ， 而 是 继续 存活 ， 以 此 达到 之 前 输入 与 后 续 输 入 相 


关联 的 目的 。 在 构造 循环 神经 网 络 模型 时 ， 不 再 像 全 连接 神经 网 络 和 卷 积 神经 网 络 一 样 ， 
仅仅 在 输入 层 到 输出 层 的 每 层 之 间 进 行 连接 ， 而 且 还 将 隐 层 的 内 部 神经 元 连接 起 来 ， 使 得 
隐 层 的 输入 不 仅仅 包括 上 一 层 的 输出 ， 还 包括 上 一 时 刻 隐 层 的 输出 。 

对 于 循环 神经 网 络 模型 ， 如 果 按照 时 间 顺 序 展 开 ， 网 络 模型 如 图 6.21 所 示 。 


隐 层 


bs O 


时 间 1 2 3 4 
图 6.21 ”循环 神经 网 络 模型 
对 于 时 间 点 为 2 的 步骤， 输入 值 既 包括 来 自 输 入 层 的 值 ， 也 包括 来 自前 一 步 (时 间 点 为 
1) 的 隐 层 的 值 。 


基本 循环 神经 网 络 


基本 循环 神经 网 络 模型 由 一 个 输入 层 、 一 个 隐 层 和 一 个 输出 层 组 成 。 

1. 输入 值 与 输出 值 

对 于 基本 循环 神经 网 络 中 的 隐 层 而 言 ， 它 的 输入 值 既 有 来 自 输入 层 的 输入 ， 也 有 隐 层 
自身 上 一 时 刻 的 输出 值 。 相 应 的 输出 值 需要 输出 到 输出 层 ， 并 进行 临时 保存 ， 留 给 下 一 时 
刻 的 隐 层 使 用 ， 如 图 6.22 所 示 。 


输出 层 


w, 
4 


输入 层 


in 
图 6.22 ”基本 循环 神经 网 络 模型 
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其 中 ，in 是 一 个 向 量 ， 表 示 输 入 层 的 值 ，s 也 是 一 个 向 量 ， 表 示 隐 层 的 计算 值 ，owt 仍 
是 一 个 向 量 ， 表 示 输 出 层 的 值 。 
静 是 输入 层 到 隐 层 的 权重 矩阵 ， 静 是 隐 层 到 输出 层 的 权重 矩阵 ， 静 则 是 将 隐 层 上 一 

时 刻 的 值 作为 这 一 时 刻 的 输入 时 的 权重 。 可 以 看 出 ， 基 本 循环 神经 网 络 是 在 全 连接 神经 网 
络 的 基础 上 ， 增 加 了 权重 值 为 到 的 输入 s。 

对 于 这 样 的 循环 神经 网 络 而 言 ， 我 们 计算 时刻 输出 层 的 值 Out,。 它 由 隐 层 的 输出 值 S, 
经 过 权重 矩阵 匹 计算 后 ， 使 用 激活 函数 8 激活 后 输出 。Out 可 以 表示 为 : 

Out, = g(W; Si) 

上 述 表 达 式 中 ， 隐 层 的 输出 值 $, 由 当前 时 刻 输入 层 的 输入 值 Iw, 和 上 一 时 刻 隐 层 的 输出 

值 S$, 分别 经 过 权重 矩阵 计算 后 ， 使 用 激活 函数 激活 后 输出 。S5, 可 以 表示 为 : 
$,7 f (W1 -Ing + Ws 5,4) 
EE, TATH AA H E E Out tl 22h AN ERENER, ERRAT: 
Out, g(W; - S+) 
= g(Wz : f QW, - Ine + Ws: Se-1)) 
= g (Wa + f(W; ne + W3 + f (Wi Inei + Ws $1-2))) 

也 就 是 说 ， 循 环 神经 网 络 的 输出 值 与 前 面 历次 的 输入 值 是 相关 联 的 。 

2. 循环 神经 网 络 的 训练 

循环 神经 网 络 的 训练 方法 所 使 用 的 BP 算法 和 全 连接 神经 网 络 的 训练 方法 所 使 用 的 BP 
算法 类 似 ， 只 是 在 反 向 传播 中 ， 它 不 仅 依赖 于 当前 层 的 网 络 ， 还 依赖 于 前 面 若干 层 的 网 
络 ， 称 为 基于 时 间 的 反 向 传播 算法 (Back Propagation Trough Time，BPTT)， 主 要 包含 的 四 
个 步骤 如 下 : 

CD 前 向 计算 每 个 神经 元 的 输出 值 。 

O 反 向 计算 每 个 神经 元 的 误差 项 值 ， 它 是 误差 函数 B 对 神经 元 /的 加 权 输 入 的 偏 导数 。 

O 计算 每 个 权重 的 梯度 。 

@ 最 后 再 用 随机 梯度 下 降 法 更 新 权重 。 

3. 梯度 问题 
对 于 这 样 的 基本 循环 神经 网 络 ， 在 实践 中 并 不 能 很 好 地 处 理 较 长 的 序列 。 由 于 计算 
的 关联 性 ， 在 计算 级 联 的 梯度 时 ， 极 易 发 生 让 梯度 朝 着 非常 大 的 值 或 非常 小 的 值 发 展 的 情 
况 。 当 梯度 值 大 到 超出 参数 边界 的 情况 时 ， 会 造成 梯度 爆炸 问题 。 当 梯度 值 小 到 非常 小 的 
情况 时 ， 会 造成 梯度 消失 问题 。 
对 于 梯度 爆炸 问题 相对 容易 处 理 。 当 梯度 爆炸 时 ， 程 序 会 收 到 NaN 错 误 。 我 们 也 可 以 
设置 一 个 梯度 阀 值 ， 当 梯度 超过 这 个 阀 值 时 可 以 直接 截取 。 
而 对 于 梯度 消失 问题 就 比较 难 检测 ， 也 更 难以 处 理 。 一 般 来 说 ， 可 通过 如 下 三 种 方法 
应 对 梯度 消失 问题 。 

1) 合理 地 初始 化 权重 值 。 初 始 化 权重 值 ， 使 每 个 神经 元 尽 可 能 不 要 取 极 大 值 或 极 小 


值 ， 以 躲 开 梯度 消失 的 区 域 。 
2) 使 用 relu 代 蔡 sigmoid 和 tanh 作 为 激活 函数 ， 这 也 是 卷 积 神经 网 络 中 的 常见 做 法 。 
3) 使 用 其 他 结构 的 循环 神经 网 络 。 


长 短期 记忆 网 络 


我 们 知道 ， 使 用 基本 循环 神经 网 络 进行 训练 时 ， 很 难处 理 长 距离 的 依赖 ， 非 常 容易 产 
生 梯度 消失 或 梯度 爆炸 问题 。 

长 短期 记忆 网 络 (Long Short Term Memory Network，LSTM) 是 一 种 改进 后 的 循环 神经 
网 络 ， 它 成 功 解决 了 原始 循环 神经 网 络 的 缺陷 ， 成 为 当前 最 流行 的 RNN。 当 前 ，LSTM 已 
经 在 语音 识别 、 图 片 描述 和 自然 语言 处 理 等 许多 领域 得 以 成 功 应 用 。 

1. LSTM 模 型 

长 短期 记忆 网 络 的 思路 就 是 在 原始 RNN 的 隐 层 中 再 增加 状态 C， 这 样 就 可 以 保存 长 期 
状态 ， 而 不 必 依靠 每 次 的 计算 。LSTM 模 型 如 图 6.23 所 示 。 


隐 层 


图 6.23 LSTM 模 型 


例如 在 三 2 时 刻 ，LSTM 的 输入 有 三 个 : 当前 时 刻 网 络 输入 层 的 输入 值 ， 上 一 时 刻 
LSTM 的 输出 值 有 1 以 及 上 一 时 刻 的 单元 状态 cl1。LSTM 的 输出 有 两 个 : 当前 时 刻 LSTM 的 输 
出 值 及 和 当前 时 刻 的 单元 状态 c2。 

对 于 LSTM 模 型 而 言 ， 关 键 就 是 怎样 控制 长 期 状态 C。 在 LSTM 中 ， 设 计 了 一 个 单元 


(celD) 和 三 个 门 (gate) 来 实现 对 长 期 状态 C 的 控制 。 一 个 单元 有 一 个 状态 参数 ， 用 来 记录 状 
态 ; 三 个 门 分 别 是 输入 门 (input gate)、 输 出 门 (output gate) 和 遗忘 门 (forget gate)。 输 入 门 决 
定 当 前 时 刻 网 络 的 输入 有 多 少 保存 到 单元 状态 。 输 出 门 (output gate) 控 制 单元 状态 有 多 少 输 
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出 到 LSTM 的 当前 输出 值 。 遗 忘 门 决定 上 一 时 刻 的 单元 状态 有 多 少 保留 到 当前 时 刻 。 
2.LSTM 计 算 
LSTM 的 门 开关 决定 了 前 向 计算 时 的 结果 ， 整 个 前 向 计算 是 对 输入 值 X 分 别 进行 遗忘 
门 计算 、 输 入 门 计算 和 输出 门 计算 的 过 程 ， 如 图 6.24 所 示 。 


图 6.24 LSTM 计 算 


(1) 遗忘 门 

遗忘 门 处理 的 数据 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判断 是 否 使 用 该 值 。 可 使 用 时 刻 的 输入 值 和 t-_-1 时 刻 的 4 值 进行 计 
算 ， 计 算 表示 为 : 


fk o(W; - [h Xe] + bp) 
其 中 ， 于 是 遗忘 门 的 权重 矩阵 ，[A_ 允 表示 把 两 个 向 量 连 接 成 一 个 更 长 的 向 量 ，2 是 
遗忘 门 的 偏 置 项 ， 使 用 sigmoid 函 数 进行 计算 。 
(2) 输入 门 
输入 门 处 理 的 数据 也 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判 断 是 否 使 用 该 值 。 可 使 用 {时 刻 的 输入 值 和 t-1 时 刻 的 A 值 进行 计 
算 ， 计 算 表示 为 : 


it = o(W; - [he Xe] + bi) 
其 中 ， 歼 是 输入 门 的 权重 和 矩阵 ，[h, ARRERA I] EE BEL I HIER IR ER, bi 
输入 门 的 偏 置 项 ， 使 用 sigmoid 函 数 进行 计算 。 
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输入 状态 是 指 对 于 根据 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 所 获取 的 更 新 信息 。 可 
使 用 数学 描述 为 : 


Ct = tanh(We: [he1, Xt] + be) 

(4) 长 期 记忆 状态 

长 期 记忆 状态 由 上 一 时 刻 的 长 期 状态 、 遗 忘 门 以 及 输入 门 、 新 的 输入 状态 共同 决定 。 
它 是 由 上 一 次 的 单元 状态 C,, 按 元 素 乘 以 遗忘 门户， 再 用 当前 输入 门 # 按 元 素 乘 以 输入 的 单 
元 状态 Ct， 最 后 将 两 个 积 相 加 而 产生 的 ， 使 用 数学 描述 为 : 
C = fro Goa + ico CO 

Hp, o RIE RERA fus SOBRE. 

对 于 长 期 记忆 ， 由 遗忘 门 和 输入 门 进行 共同 控制 。 由 于 遗忘 门 的 控制 ， 可 以 保存 很 久 
之 前 的 信息 。 由 于 输入 门 的 控制 ， 又 可 以 避免 当前 无 关 紧 要 的 内 容 进入 记忆 。 

(5) 输出 门 

输出 门 处 理 的 数据 也 是 上 一 时 刻 的 短期 记忆 和 当前 时 刻 的 输入 。 对 这 两 个 数据 进行 计 
算 后 ， 使 用 sigmoid 函 数 判 断 是 否 使 用 该 值 。 可 使 用 在 时 刻 的 输入 值 和 -1 时 刻 的 值 进行 
计算 ， 计 算 表 示 为 : 


0, = a(Wo [hey Xi] + bo) 
(6) 最 终 输出 
LSTM 最 终 输出 的 短期 记忆 值 由 输出 门 和 长 期 记忆 状态 确定 ， 数 学 表示 为 : 
ht = 0, ° tanh (C) 
对 于 LSTM 网 络 的 训练 ， 依 然 使 用 反 向 传播 算法 进行 网 络 训练 ， 更 新 权重 矩阵 。 
3. TensorFlow 的 LSTM 类 
在 TensorFlow 中 针对 RNN 提 供 了 多 种 方法 ， 特 别 是 针对 LSTM 提 供 了 一 些 相应 的 方 
法 ， 主 要 包括 : 
tf.contrib.mn.BasicLSTMCell 
tf.contrib.rnn.MultiRNNCell 


tf.nn.dynamic rnn( cell, inputs, sequence length-None, initial statezNone, dtype-None, 
parallel iterationsz None, swap. memory-False, time major-False, scope-None) 


(1) t£nn.rnn cell.BasicLSTMCell(n hidden, forget bias-1.0, state is tuple-True) 
来 创建 最 基本 的 LSTM 网 络 单位 。 

口 参数 n_ hidden 

表示 神经 元 的 个 数 。 
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O “参数 forget bias 

表示 LSTM 中 遗忘 门 的 忘记 系数 。 如 果 等 于 1， 则 表示 不 会 忘记 任何 信息 。 如 果 等 于 
0， 则 表示 都 忘记 。 

Cj state is tuple 

返回 状态 的 表示 方式 ， 默 认 值 为 True。 当 state is_tuple=True 时 ， 前 面 讲 到 的 LSTM 网 
络 中 的 状态 C 和 太 就 是 分 开 记 录 的 ， 放 在 二 元 组 tuple 中 返回 ， 否则 ， 按 列 连接 起 来 返回 。 
官方 建议 用 True。 

另外 ， 在 实际 使 用 中 还 需要 使 用 Cell 类 的 状态 初始 化 函数 zero_state(batch_size， 
dtype)。 其 中 ， 参 数 batch_size 就 是 输入 样本 批 次 的 数目 ，dtype 就 是 数据 类 型 。 

(2) tf.contrib.rnn. MultiRNNCell(cells, state is_tuple=True) 
用 来 创建 多 个 cell 记 录 的 历史 信息 。 
(3) tf.nn.dynamic_rnn(cell, inputs, sequence length-None, initial_state=None, dtype=None, 
parallel iterations-None, swap memory=False, time major-False, scope=None) 
前 面 的 BasicLSTMCell 和 MultiRNNCell 方 法 用 于 创建 RNN 的 神经 元 ， 而 dynamic_rmn 方 
法 用 于 具体 执行 RNN 运 算 。 

O 参数 cell 

表示 RNN 节 点 ， 例 如 ， 前 面 使 用 BasicLSTMCell 方 法 创建 的 节点 。 

O "inputs 

RNN 网 络 的 输入 值 。 需 要 注意 的 是 ， 如 果 参 数 time_major 为 False， 则 输入 张 量 的 维度 
必须 是 [batch_size, max time, .…]， 否 则 输入 张 量 的 维度 必须 是 [max_time, batch size, ...]- 
默认 情况 为 第 一 种 。 

口 参数 initial_state 

初始 化 RNN 节 点 的 状态 。 

口 返回 值 

dynamic rn 返回 两 个 变量 ， 第 一 个 是 每 个 步骤 的 输出 值 ， 第 二 个 是 最 终 的 状态 。 


双向 循环 神经 网 络 简介 


除了 前 面 介 绍 的 循环 神经 网 络 外 ， 在 自然 语言 处 理 中 ， 我 们 还 会 经 常 遇 到 需要 通过 上 
下 文 环 境 来 推导 的 情况 ， 这 不 仅仅 要 查看 前 面 的 词语 ， 还 需要 查看 后 面 的 词语 。 这 就 引出 
了 双向 循环 神经 网 络 ， 如 图 6.25 所 示 。 
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第 6 章 神经 网 络 


前 向 传播 状态 


反 向 传播 状态 


t-l t tel 
图 6.25 ”双向 循环 神经 网 络 模型 
从 图 6.25 可 以 看 出 ， 双 向 循环 神经 网 络 的 隐 层 要 保存 两 个 值 ， 一 个 值 4 参与 正 向 计 
算 ， 另 一 个 值 4' 参 与 反 向 计算 。 最 终 的 输出 值 取 决 于 4 和 4'。 计 算 方 法 为 : 
Out,— g(Wz - A, + W; - 40) 
而 4 和 4' 的 计算 方法 为 : 
A,7 f(W, ne + Ws: Aii) 
A7 f(W', Ine + W's A4) 
也 就 是 说 ， 正 向 计算 时 ， 隐 层 的 值 与 前 向 传播 状态 有 关 ; 反 向 计算 时 ， 隐 层 的 值 与 反 
向 传播 状态 有 关 。 最 终 的 输出 取决 于 正 向 和 反 向 计算 的 和 。 
当前 ， 循 环 神经 网 络 除了 前 面 介 绍 的 基本 循环 神经 网 络 、LSTM 循 环 神经 网 络 和 双向 
循环 神经 网 络 外 ， 还 有 GRU、CW-RNN、 深 度 双向 RNN 等 循环 神经 网 络 。 这 些 循 环 神经 
网 络 主要 从 基本 循环 向 两 个 方向 演化 ， 一 是 对 隐 层 的 功能 逐渐 增强 ， 二 是 实现 网 络 的 双向 
性 和 加 深 。 
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在 6.7 节 中 ， 详 细 介绍 了 循环 神经 网 络 的 设计 模型 ， 并 详细 讲解 了 基本 循环 神经 网 
络 、 长 短期 记忆 网 络 的 计算 方法 和 TensorFlow 提 供 的 一 些 相关 函数 。 
在 本 节 中 ， 我 们 将 通过 构建 LSTM 循 环 神经 网 络 模型 来 实现 对 MNIST 数 据 集 的 处 理 。 
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6.8.1 加 载 MNIsTil 练 数据 


对 于 MNIST 数 据 集 的 使 用 ， 需 要 导入 input_data.py 文 件 ， 使 用 TensorFlow.contrib.learn. 
python.learn.datasets.mnist 中 的 read_data_sets 来 加 载 数据 。 具 体 实现 如 下 : 


01 import tensorflow as tf 

02 import numpy as np 

O3 import input. data 

04 def main( ): 

05 “# 加 载 MNIST 数 据 集 

06  mnist- input data.read data sets('data/, one hot-True) 
07  trainimg = mnist.train.images 
08  trainlabel = mnist.train.labels 
O3  testimg = mnist.test..images 
10  testlabel = mnist.test.labels 
11 print" MNIST ready") 


[6.8.2 oi ca 


对 于 神经 网 络 模型 的 构建 主要 可 分 为 四 步 ， 分 别 是 构建 输入 层 、 隐 层 、 输 出 层 以 及 定 
义 损 失 函 数 。 

在 本 例 中 ， 构 建 的 LSTM 网 络 模型 由 一 个 输入 层 、 一 个 全 连接 神经 网 络 层 、 一 个 
LSTM 层 和 一 个 输出 层 组 成 。 

由 于 MNIST 数 据 集中 的 每 一 个 图 片 文件 都 是 28 像 素 X28 像 素 ， 因 此 在 进行 RNN 分 类 
处 理 时 ， 可 以 把 图 片 的 每 行 看 成 一 个 输入 序列 ， 逐 行进 行 有 序 输 入 。 对 于 RNN 而 言 ， 每 一 
步 输入 的 序列 长 度 为 28， 输 入 的 步 数 总 共 是 28 步 ， 因 此 ，RNN 的 基本 参数 定义 为 : 


01 # RNN 神 经 网 络 的 参数 

02 n input = 28 LE 输入 层 的 数量 

03 n_steps =28 

04 n hidden- 128 4 隐 层 的 数量 

05 n dasses- 10 ”# 输 出 的 数量 ， 因 为 是 分 类 问题 ， 这 里 一 共有 10 类 


输入 数据 及 各 种 权重 的 初始 化 定义 如 下 : 


01 x = tf.placeholder("float32", [None, n. steps, n input]) 

02 y = tf.placeholder("float32", [None, n. classes]) 

03 # 随机 初始 化 每 一 层 的 权重 值 和 偏 置 值 

04 weights 7 ( 

05 "hidden tf. Variable(tf.random normal([n input, n hidden])), 
O6  'out':tf.Variable(tf.random normal([n hidden, n classes])) 
07 } 

08 biases ={ 

09  "hidden' tf.Variable(tf.constant(O.1,shape-([n hidden, ]))), 
10  'out':tf.Variable(tf.constant(0.1,shape-([n classes,]))) 


定义 循环 神经 网 络 模型 ， 主 要 包括 一 个 全 连接 神经 网 络 层 和 一 个 LSTM 层 。 

由 于 从 MNIST 数 据 集中 读 取 数 据 时 采取 分 批 读 取 的 方式 ， 因 此 每 批 次 读 取 的 数据 格式 
为 (batch_size, n steps, n inpub)。 为 了 实现 与 全 连接 神经 网 络 层 的 矩阵 乘法 ， 需 要 先 按照 全 
连接 神经 网 络 层 权 重 矩 阵 的 维度 对 输入 值 进行 矩阵 维度 的 调整 。 

完成 全 连接 神经 网 络 层 后 ， 进 行 LSTM 层 的 定义 。 由 于 循环 神经 网 络 要 求 输入 张 量 
的 维度 必须 是 [batch_size, max time, .….]， 因 此 还 需要 再 次 进行 数据 维度 的 调整 。 具 体 实 
现 如 下 : 


01 


def RNN(_X,_weights, _biases): 
_X=tf.reshape(_X, [-1, n. input]) 
# 输入 层 到 隐 层 ， 第 一 次 是 直接 运算 
X in = tf.matmul(_X, weights['hidden]]) +  biases['hidden'] 
# 规 则 数据 
X in =tf.reshape(X_in,[-1,n_steps,n_hidden]) 
# 之 后 使 用 LSTM 
Istm_cell = tf.contrib.rmn.BasicLSTMCell(n hidden, forget_bias=1.0,state_is_tuple=True) 
# 初 始 化 
init state-lstm cell.zero state(batch size,dtype-tf.float32) 
# 使 用 dynamic_rnn 方 法 ， 执 行 RNN 运 算 
outputs, final_state = tf.nn.dynamic_rnn(Istm_cell, X in, initial_state=init_state,time_ 
major-False) 
# 输出 层 
results-tf.matmul(final state[1], weights['out']) + _biases[out] 
return results 


至 此 ， 完 成 了 循环 神经 网 络 模型 的 构建 ， 然 后 定义 损失 函数 。 使 用 常用 的 tf.nn. 
softmax_cross_entropy_with_logits() 方 法 ， 具 体 实现 如 下 : 


01 
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# 定义 损失 函数 和 优化 方法 ， 其 中 损失 函数 为 softmax 交 叉 炳 ， 优 化 方法 为 Adam 
cost = tf.reduce mean(tf.nn.softmax cross entropy with logits( logits=pred, labels=y)) 
optimizer = tf.train.AdamOptimizer(learning. rate).minimize(cost) 


[EE] 进行 数据 训练 及 评估 模型 


接 下 来 进行 正式 的 数据 训练 。 使 用 小 批量 梯度 下 降 法 进行 优化 ， 对 循环 神经 网 络 模型 
的 准确 率 进行 评估 ， 具 体 实现 如 下 : 


# 进行 模型 评估 
correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 
# 初始 化 
init = tf.global variables initializer() 
# 开始 运行 
with tf.Session() as sess: 
sess.run(init) 
step - 0 
# 持续 迭代 
while step * batch. size < training iters: 
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12 batch xs, batch. ys = mnist.train.next batch(batch size) 

13 # 对 数据 进行 处 理 ， 使 其 符合 输入 

14 batch_xs = batch_xs.reshape((batch_size, n_steps, n_input)) 

15 Sess.run(optimizer, feed dict-([x: batch xs, y: batch. ys, ]) 

16 3 在 特定 的 迭代 回合 进行 数据 的 输出 

17 if step % display_step == 0: 

18 acc = sess.run(accuracy, feed_dict={x: batch. xs, y: batch. ys, }) 
19 print('step 96d, training accuracy %g' 96 (step, acc)) 

20 step *- 1 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 准确 率 的 提升 情况 ， 如 图 6.26 所 示 。 


step 400, training accuracy 0.976562 
step 420, training accuracy 0.945312 
step 440, training accuracy 0.960938 
step 460, training accuracy 0.914062 
step 480, training accuracy 0.976562 
step 500, training accuracy 0.953125 
step 520, training accuracy 0.976562 
step 540, training accuracy 0.960938 
step 560, training accuracy 0.992188 
step 580, training accuracy 0.960938 
step 600, training accuracy 0.9375 

step 620, training accuracy 0.96875 

step 640, training accuracy 0.96875 

step 660, training accuracy 0.96875 

step 680, training accuracy 0.953125 
step 700, training accuracy 0.96875 

step 720, training accuracy 0.976562 
step 740, training accuracy 0.976562 
step 760, training accuracy 0.96875 

step 780, training accuracy 0.992188 


图 6.26 ”准确 率 的 提升 情况 
可 以 看 到 ， 准 确 率 是 稳步 提升 的 ， 可 此 可 见 ， 循 环 神经 网 络 也 是 个 不 错 的 识别 算法 。 
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在 前 面 章节 中 ， 我 们 已 经 详细 介绍 了 最 常用 的 全 连接 神经 网 络 、 卷 积 神经 网 络 和 循环 
神经 网 络 。 本 节 中 将 简要 介绍 递归 神经 网 络 。 


[6.9.1 递归 神经 网 络 简介 


递归 神经 网 络 (Recursive Neural Network，RNN) 与 循环 神经 网 络 类 似 ， 主 要 用 于 自然 
语言 的 处 理 ， 而 且 可 以 处 理 诸如 树 和 图 这 样 的 递归 结构 。 


n 


递归 神经 网 络 的 输入 是 两 个 或 多 个 子 节点 ， 输 出 就 是 将 这 些 子 节点 编码 后 产生 的 父 节 
点 ， 父 节点 的 维度 和 每 个 子 节点 是 相同 的 ， 如 图 6.27 所 示 。 
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cl [v] 
图 6.27 ”递归 神经 网 络 模型 
其 中 ，C1l 和 C2 分 别 表示 两 个 子 节点 的 向 量 ，P 表 示 父 节点 的 向 量 。 子 节点 和 父 节点 组 
成 一 个 全 连接 神经 网 络 。 
在 数学 上 可 以 描述 为 ， 假 设 子 节点 和 父 节点 的 维度 是 4， 全 连接 神经 网 络 的 权重 矩阵 
为 丈 ， 则 球 的 维度 将 是 4X2d， 父 节点 的 计算 公式 可 以 写成 : 


P -tanh(W| 0 |+ 
=tanh(W| e, |+) 
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然后 ， 我 们 把 产生 的 父 节点 的 向 量 和 其 他 子 节点 的 向 量 再 次 作为 网 络 的 输入 ， 产 生 它 
们 的 父 节 点 。 如 此 递归 下 去 ， 直 至 整 棵 树 处 理 完毕 。 最 终 ， 我 们 将 得 到 根 节点 的 向 量 ， 可 
以 认为 是 对 整 棵 树 的 表示 ， 这 样 就 实现 了 把 树 映 射 为 向 量 。 


QA 递归 神经 网 络 的 应 用 


递归 神经 网 络 可 以 把 树 结构 、 图 结构 的 信息 编码 为 一 个 向 量 ， 也 就 是 把 信息 映射 到 一 
个 语义 向 量 空间 中 。 在 语义 向 量 空间 中 ， 一 般 满足 某 一 类 性 质 。 

例如 ， 在 语义 向 量 空间 中 ， 语 义 相似 的 向 量 距 离 更 近 。 也 就 是 说 ， 如 果 两 句 话 的 意思 
相似 ， 那 么 把 它们 分 别 编码 后 的 两 个 向 量 的 距离 也 相近 ; 反之 ， 如 果 两 句 话 的 意思 截然 不 
同 ， 那 么 编码 后 两 个 向 量 的 距离 则 很 远 。 

利用 这 样 的 性 质 ， 我 们 可 以 对 自然 语言 中 的 歧义 句 进行 有 效 的 区 别 。 例 如 ，“ 我 们 三 
个 人 一 组 ”这 一 句 话 ， 通 过 递归 神经 网 络 可 以 表示 为 图 6.28 所 示 的 情形 。 
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图 6.28 ”递归 神经 网 络 可 区 别 歧义 句 


很 明显 ， 图 6.28 中 将 “我 们 三 个 人 一 组 ”分 为 两 种 语法 解析 树 ， 一 种 是 “我 们 /三 个 人 
一 组 ”， 也 就 是 说 ， 我 们 的 人 很 多 ， 按 照 每 三 个 人 一 组 的 方式 进行 分 组 ， 另 一 种 是 “我 们 
三 个 人 /一 组 ， 也 就 是 说 ， 我 们 只 有 三 个 人 ， 并 且 组 成 一 组 。 采 用 递归 神经 网 络 可 以 将 这 
两 种 解析 方式 编码 为 不 同 的 向 量 ， 从 而 区 别 出 不 同 的 语义 。 

递归 神经 网 络 可 以 将 词 、 句 、 段 、 篇 按照 它们 的 语义 映射 到 同一 个 语义 向 量 空间 中 ， 
也 就 是 把 树 结构 、 图 结构 的 信息 表示 为 一 个 个 有 意义 的 向 量 。 有 了 这 些 向 量 后 ， 就 可 以 此 
为 基础 去 完成 更 高 级 的 任务 ， 比 如 情感 分 析 等 。 

尽管 递归 神经 网 络 具有 更 为 强大 的 表示 能 力 ， 但 是 在 实际 应 用 中 并 不 太 流 行 。 其 中 一 
个 主要 原因 是 ， 递 归 神 经 网 络 的 输入 是 树 结构 、 图 结构 ， 而 这 种 结构 需要 花费 很 多 人 力 去 
标注 。 相 对 于 递归 神经 网 络 能 够 带 来 的 性 能 提升 ， 这 种 投入 是 不 太 划 算 的 。 
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本 章 主要 介绍 了 神经 网 络 ， 讲 解 了 神经 元 模型 、 神 经 网 络 层 ， 并 详细 讲解 了 全 连 
接 神经 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 等 主要 的 神经 网 络 的 原理 、 计 算 过 程 以 及 
TensorFlow 提 供 的 方法 等 ， 主 要 内 容 包 括 通用 神经 网 络 层 的 构建 、 卷 积 层 的 使 用 、 池 化 层 
的 使 用 、 循 环 神经 元 的 构建 以 及 损失 函数 的 选择 等 。 本 章 针 对 手写 数字 数据 集 MNIST 分 别 
使 用 了 softmax 回 归 、 卷 积 神经 网 络 (CNN)、 长 短期 记忆 (LSTM) 神 经 网 络 进行 了 构建 和 训 
练 ， 具 体 说 明了 使 用 TensorFlow 构 建 神经 网 络 的 步骤 和 重点 。 


在 前 面 章 节 中 ， 简 要 介绍 了 线性 模 
型 、SVM 以 及 几 种 常用 的 神经 网 络 模型 。 
这 些 模型 主要 针对 有 标签 的 数据 进行 训 
练 ， 属 于 监督 学 习 。 本 章 将 对 无 监督 学 习 
进行 讲解 。 
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在 前 面 介绍 的 机 器 学 习 方 法 中 ， 训 练 数 据 都 是 有 标签 的 。 但 在 现实 世界 中 ， 想 要 提 
供 具有 标签 的 数据 并 不 容易 ， 对 于 大 量 的 训练 数据 ， 我 们 没有 精力 去 进行 标识 甚至 是 无 法 
标识 的 。 我 们 希望 能 够 实现 一 种 犹如 人 脑 的 模型 ， 只 需 少量 的 标签 便 可 理解 这 个 多 彩 的 世 
界 。 对 于 这 种 仅 有 数据 本 身 而 没有 标签 的 训练 数据 的 学 习 ， 就 是 无 监督 学 习 。 

对 于 无 监督 学 习 而 言 ， 由 于 输入 数据 没有 标签 ， 因 此 在 学 习 训练 时 无 法 获取 正确 的 标 
签 信息 。 无 监督 学 习 在 模型 构建 、 正 确 率 等 方面 与 监督 学 习 都 是 不 一 样 的 。 


7.1.1 5 

目前 ， 在 无 监督 学 习 中 研究 最 多 、 应 用 最 广 的 就 是 聚 类 模型 。 

聚 类 的 思想 就 是 对 于 这 些 未 明确 指定 分 类 的 数据 ， 通 过 它们 本 身 呈 现 出 的 结构 ， 使 用 
若干 通常 不 相交 的 子 集 对 样本 数据 进行 划分 ， 每 个 子 集 称 为 “ 簇 ”。 通 过 这 样 的 划分 ， 每 
个 簇 可 能 对 应 着 一 些 潜在 的 类 别 。 这 些 通 过 聚 类 模型 划分 的 类 别 ， 在 训练 前 是 未 知 的 ， 只 
是 在 训练 过 程 中 自动 形成 了 簇 结构 。 对 于 这 种 自然 划分 形成 的 簇 ， 在 实际 使 用 前 还 需要 使 
用 者 再 次 进行 评估 。 

基于 不 同 的 学 习 策略 ， 人 们 设计 出 了 多 种 类 型 的 聚 类 算法 ， 主 要 包括 原型 聚 类 、 密 度 
聚 类 和 层次 聚 类 等 。 
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O “原型 聚 类 ”假设 数据 的 聚 类 结构 能 通过 一 组 原型 进行 刻画 。 之 后 能 对 原型 进行 不 
断 的 迭代 更 新 ， 进 而 获取 到 数据 的 聚集 、 分 类 。 这 种 算法 在 实际 的 聚 类 任务 中 极 
为 常用 ， 主 要 的 原型 聚 类 算法 包括 K 均 值 聚 类 、 学 习 向 量 量 化 (LVQ) 以 及 高 斯 混合 
RK. 

O 密度 聚 类 ”假设 数据 的 聚 类 结构 能 通过 样本 分 布 的 紧密 程度 来 确定 。 之 后 能 从 样 
本 密集 程度 的 角度 考虑 样本 之 间 的 连续 性 ， 并 基于 可 连续 样本 不 断 扩展 聚 类 簇 以 
获得 最 终 的 聚 类 结果 。 最 著名 的 密度 聚 类 算法 就 是 DBSCAN 算 法 。 

O 层次 聚 类 ， 假 设 数 据 的 聚 类 结构 能 通过 数据 的 分 层 来 确定 。 通 过 在 不 同 层次 对 数 
据 集 进行 划分 ， 从 而 形成 树 型 的 聚 类 结构 。 对 于 数据 样本 的 层次 划分 ， 可 以 采用 
“ 自 底 向 上 ”的 聚合 策略 ， 也 可 以 采用 “ 自 顶 向 下 ”的 分 拆 策略 。 其 中 ， 最 著名 
的 层次 聚 类 算法 就 是 AGNES 算 法 。 


[7.1.2 自 编码 网 络 模型 


在 无 监督 学 习 中 ， 还 有 一 种 重要 的 训练 方法 是 自 编码 网 络 。 

自 编码 网 络 是 一 种 神经 网 络 ， 利 用 的 是 信息 论 中 对 信息 进行 “编码 -解码 ”的 原理 。 
通过 对 信息 进行 “编码 -解码 ”， 可 以 对 原始 信息 进行 恢复 重建 ， 而 且 编码 后 的 信息 虽然 
在 形式 上 与 原始 信息 不 同 ， 但 却 有 效 地 保留 了 原始 信息 的 内 容 。 

在 自 编码 网 络 模型 中 ， 一 般 都 通过 构建 多 层 神经 网 络 来 实现 。 将 原始 信息 作为 神经 网 
络 模 型 的 输入 ， 通 过 神经 网 络 中 间 层 的 处 理 对 原始 信息 进行 “编码 -解码 ”， 形 成 神经 网 
络 的 输出 。 对 神经 网 络 的 输出 与 原始 信息 之 间 的 误差 进行 比较 ， 以 误差 最 小 化 作为 损失 函 
数 进行 整体 网 络 的 迭代 和 调整 。 

在 此 基础 上 ， 还 可 以 进一步 改造 。 比 如 ， 对 输入 添加 噪声 后 进行 训练 ， 可 以 使 编码 信 
息 具有 一 定 的 抗 噪 能 力 等 。 

接 下 来 ， 将 使 用 最 常用 的 K 均 值 聚 类 和 自 编 码 网 络 来 讲解 无 监督 学 习 。 


| WE koer% E 


K 均 值 聚 类 算法 是 聚 类 算法 中 的 一 种 常用 算法 。 本 节 将 详细 介绍 K 均 值 聚 类 算法 并 使 
用 该 算法 对 数据 进行 分 类 。 


LEX]. “的 值 到 类 算法 简介 


KK 均值 聚 类 算法 是 一 种 常用 的 聚 类 算法 ， 过 程 如 下 : 对 于 给 定 的 样本 集 D， 划 分 为 K 
的 簇 类 ， 使 所 有 的 簇 划 分 C 满 足 最 小 化 平方 误差 。 换 言 之 ， 计 算 每 个 样本 点 与 其 所 属 质心 
的 距离 的 误差 平方 和 最 小 化 平方 误差 ， 计 算 公 式 为 : 


K 
E- Y M Ix - ul! 
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我 们 需要 实现 的 就 是 最 小 化 平方 误差 E。 但 这 是 NP-hard 问 题 ， 难 以 直接 计算 出 最 正 
确 的 结果 。 在 实际 工程 计算 中 ， 可 以 通过 和 迭 代 优化 的 方法 来 逼近 最 优 解 。 

和 迭代 优化 的 思路 是 任意 选 定 K 个 质心 ， 然 后 将 所 有 样本 数据 根据 选 定 的 K 个 质心 划分 
KKDE, 之 后 根据 划分 的 每 个 簇 内 的 样本 数据 调整 质心 的 位 置 。 最 后 再 次 将 所 有 样本 根 
据 新 质心 进行 簇 划分 ， 不 断 兴 代 。 主 要 计算 过 程 可 以 分 为 如 下 几 步 : 

@ 对 于 给 定 的 数据 样本 D， 任 意 选 择 其 中 的 K 个 点 作为 初始 质心 。 

O 将 每 个 点 分 配 到 距离 最 近 的 质心 ， 形 成 kK 个 簇 。 

@ 对 于 完成 分 配 的 K 个 禾 ， 再 次 重新 计算 每 个 簇 的 质心 。 

QD 重复 步骤 @， 再 次 将 每 个 点 分 配给 新 的 最 近 那 个 簇 的 质心 。 

O 不 断 兴 代 步骤 @ 和 G@@， 直 到 簇 不 发 生变 化 或 达到 最 大 迭代 次 数 为 止 。 

在 计算 过 程 中 ， 需 要 特别 关注 的 是 K 值 的 选取 、 初 始 质心 、 距 离 算 法 和 质心 的 更 新 等 
关键 点 。 

对 于 K 的 取 值 ， 表 示 需 要 得 到 的 簇 的 数目 ， 也 就 是 样本 数据 的 标签 数 。 如 果 能 够 明确 
最 终 的 标签 数 ， 就 可 以 直接 使 用 K 值 。 但 在 进行 无 监督 学 习 时 ， 我 们 通常 事先 无 法 明确 数 
据 的 分 布 情况 ， 也 就 无 法 明确 知道 数据 的 簇 的 数目 。 在 K 值 的 选取 过 程 中 ， 一 般 通 过 枚 举 
来 不 断 优化 和 调整 ， 不 会 将 K 值 设置 得 很 大 。 

对 于 初始 质心 的 选取 ， 由 于 具有 随机 性 ， 因 此 一 般 进行 随机 选取 。 但 在 进行 随机 选取 
时 ， 需 要 注意 样本 数据 集 在 每 一 个 维度 上 的 最 小 值 与 最 大 值 ， 随 机 的 质心 尽量 不 要 超过 样 
本 数据 的 边界 。 

对 于 每 个 点 到 质心 的 距离 ， 计 算 方 法 有 很 多 种 ， 常 用 的 有 欧 氏 距离 、 余 弦 相 似 度 、 汉 
明 距 离 等 。 在 K 均 值 聚 类 算法 中 ， 一 般 采 用 欧 氏 距离 算法 来 计算 两 个 点 的 距离 ， 欧 氏 距 离 


公式 如 下 : 
distEclud(X, Y) = (Xi - Y? 
| » 


对 于 质心 的 更 新 计算 ， 会 将 簇 中 所 有 样本 的 均值 作为 该 簇 的 质心 ， 这 也 是 K 均 值 名 称 
的 由 来 。 
需要 特别 说 明 的 是 ， 由 于 整个 过 程 采用 过 代 优化 的 计算 思想 来 近似 求解 ， 因 此 并 不 能 
保证 收敛 到 的 都 是 全 局 的 最 优 解 ， 有 很 大 可 能 最 终 获 取 的 结果 是 局 部 的 最 优 解 。 所 以 在 实 
际 工 作 中 ， 为 了 取得 比较 好 的 效果 ， 我 们 一 般 会 用 不 同 的 初始 质心 来 进行 计算 ， 从 而 得 到 
多 个 局 部 的 最 优 解 ， 再 通过 对 比 各 个 结果 来 分 析 确 定 最 优 解 。 
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(7.2.2 “的 值 到 类 算法 实践 


我 们 使 用 K 均 值 聚 类 算法 来 对 MNIST 训 练 集 中 的 图 片 进行 类 型 标注 ， 最 后 与 训练 集中 
的 正确 标签 进行 对 比 。 

1. 加 载 数据 

对 于 MNIST 数 据 集 的 使 用 ， 我 们 已 经 非常 熟悉 了 。 但 在 无 监督 学 习 中 ， 进 行 训 练 的 样 
本 仅仅 是 MNIST 数 据 集中 的 图 片 数据 ， 而 并 没有 使 用 MINST 数 据 集中 的 标识 数据 。 加 载 
数据 的 具体 实现 如 下 : 

01 import tensorflow as tf 

02 import numpy as np 

03 import input. data 

04 from random import randint 

05 from collections import Counter 

06 4 导入 MNIST 数 据 集 

07 mnist = input. data.read data sets(data/, one_hot=True) 

08 # 使 用 训练 集 的 图 片 数据 作为 输入 数据 

09 X=mnist.train.images # shape:(55000, 784) 

10 N = mnist.train.num_examples # 样本 点 数目 


2. 实现 K 均 值 聚 类 算法 

我 们 知道 K 均 值 聚 类 算法 采用 循环 迭代 的 方式 ， 重 点 关注 的 是 明确 K 值 、 初 始 质心 、 
计算 距离 和 更 新 质心 。 

在 对 MNIST 数 据 集 的 处 理 过 程 中 ，K 值 是 我 们 最 终 对 样本 数据 的 分 类 数量 。 因 此 ， 
MNIST 数 据 集 最 终 被 分 类 为 0~9 共 10 类 ， 因 此 K 值 取 10。 

对 于 初始 质心 的 选取 ， 是 在 样本 数据 的 边界 通过 随机 选取 的 方式 来 实现 的 ， 例 如 : 


start pos = tf.Variable(X[np.random.randint(X.shape[0], size=k),:], dtype=tf.float32) 
centroids = tf.Variable(start_pos.initialized_value(), 'S', dtype=tf.float32) 


对 于 每 个 点 的 分 配 ， 首 先 计算 该 点 到 所 有 质心 的 距离 ， 然 后 使 用 tt.argmin0 方 法 获取 
距离 最 小 的 质心 作为 该 点 所 在 区 域 的 质心 ， 划 分 到 该 簇 。 

完成 艇 的 划分 后 ， 对 于 该 簇 内 所 有 的 样本 数据 使 用 tf.unsorted_segment_sum() 方 法 求 
和 、 求 平均 值 ， 获 得 簇 的 新 质心 。 

然后 不 断 迭 代 ， 直 到 质心 不 再 变化 或 者 训练 次 数 完成 ， 具 体 实现 如 下 : 


01 k = 10# 类 别 数目 

02 MAX ITERS = 100# 最 大 迭代 次 数 

03 # 获 取 初 始 质心 

04 start pos = tf. Variable(X[np.random.randint(X.shape[0], size=k),:], dtype=tf.float32) 
05 centroids = tf. Variable(start pos.initialized value(), 'S', dtypeztf.float32) 

06 # 输入 值 

07 points = tf. Variable(X, X', dtype-tf.float32) 

08 ones like = tf.ones((points.get shape(Q[0], 1)) 

09 prev. assignments = tf. Variable(tf.zeros((points.get shape()0], ), dtype-tf.int64)) 
10 # 获取 距离 


11 p1 = tf.matmul( 

12  tfexpand dims(tf.reduce sum(tf.square(points), 1), 1), 

13  tfones(shape-(1, k)) 

14 ) 

15 p2 -tf.transpose(tf.matmul( 

16  tfreshape(tf.reduce sum(tf.square(centroids), 1), shape=[-1, 1]), 

17 ones like, 

18  transpose b-True 

19 )) 

20 fiTEHBE 

21 distance = tf.sqrt(tf.add(p1, p2) - 2 * tf.matmul(points, centroids, transpose b-True)) 
22 # 划 分 该 点 的 簇 

23 point_to_centroid_assignment = tf.argmin(distance, axis=1) 

24 # 计算 均值 

25 total = tf.unsorted_segment_sum(points, point_to_centroid_assignment, K) 

26 count = tf.unsorted segment sum(ones like, point to centroid assignment, k) 
27 means - total / count 

28 # 中 心 点 是 否 变化 


29 is continue = tf.reduce any(tf.not equal(point to centroid assignment, prev assignments)) 


30 # 循 环 迭 代 

31 with tf.control dependencies([is continue]): 

32 loop = tf.group(centroids.assign(means), prev assignments.assign 
(point to centroid assignment)) 


3. 进行 数据 训练 
接 下 来 进行 正式 的 数据 训练 ， 具 体 实 现 如 下 : 


01 sess = tf.Session() 

02 sess.run(tf.global variables initializer()) 

03 changed = True 

04 iterNum =0 

05 while changed and iterNum < MAX ITERS: 
06  iterNum *- 1 

07 dile 

08  [changed, ]-sess.run([is continue, loop]) 
09  res-sess.run(point to centroid assignment) 
10  print(iterNum) 

11 print('train finished") 


4. 评估 模型 


对 于 模型 的 评估 ， 我 们 先 查看 一 下 经 过 K 均 值 训练 后 ，MNIST 数 据 集中 图 片 被 划分 的 


情况 。 
在 使 用 K 均 值 训练 后 ， 样 本 数据 被 划分 到 10 个 簇 中 。 由 于 是 MNIST 数 据 集 ， 因 有 


DUET 
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标签 进行 统计 ， 显 示 数 量 排 在 前 三 的 标签 及 对 应 数量 。 最 后 ， 通 过 查看 艇 中 前 三 的 
签 及 数量 ， 判 断 簇 划 分 的 正确 性 。 具 体 实现 如 下 : 


01 # 尼 录 训 练 集 的 真实 标签 数据 ， 为 了 测试 准备 率 
02 y -mnist.train.labels 


E 确 标 
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03 y=0 

04 form in range(N): 

05  forninrange(10): 

06 if(y [m][n]-71): 

07 y.append(n) 

08 f 评估 。 获 取 每 个 篮 所 有 的 点 ， 按 照 真实 标签 的 前 三 数量 显示 
09 nums_in_clusters [[] for i in range(10)] 

10 for iin range(N): 

11  nums in clusters[res[i].append(y[i]) 

12 for iin range(10): 

13  print(Counter(nums in clusters[i]).most common(3) ) 


运行 上 述 代 码 ， 可 以 看 到 在 训练 结束 后 ， 每 个 簇 中 各 类 标签 的 数量 如 图 7.1 所 示 。 


train finished 

[(4, 2885), (9, 2670), (7, 1612)] 
[(7, 3466), (9, 2243), (4, 1758)] 
[(3, 3646), (5, 1649), (8, 1026)] 
[(2, 3877), (3, 197), (6, 72)] 
[(1, 2675), (5, 749), (8, 385)] 
[(e, 2588), (6, 90), (5, 57)] 
[(8, 3203), (5, 1400), (3, 910)] 
[(6, 4486), (2, 189), (0, 169)] 
[(e, 2272), (5, 233), (6, 126)] 
[(1, 3460), (3, 381), (2, 311)] 


图 7.1 K 均 值 训练 结果 


可 以 看 出 ， 用 K 均 值 划 分 的 簇 类 与 真实 的 标签 值 之 间 存 在 一 定 的 区 别 。 

例如 ， 第 01 行 按照 K 均 值 划 分 的 簇 中 ， 真 实 标签 为 “4” 的 样本 有 2885 个 ， 标 签 为 
“9” 的 样本 有 2670 个 。 这 个 簇 划分 得 并 不 好 ， 很 难说 明 簇 代表 的 含义 。 

但 是 ， 对 于 第 06 行 的 簇 而 言 ， 真 实 标签 为 “0” 的 样本 有 2588 个 ， 标 签 为 “6” 的 样本 
有 90 个 。 这 个 簇 内 的 数据 就 比较 统一 ， 误 差 也 在 可 接受 范围 内 。 
为 了 进一步 判断 簇 划 分 的 准确 率 ， 使 用 测试 集 进行 测试 。 对 于 每 一 个 划分 的 徐 ， 使 用 
该 徐 中 所 有 样本 数据 的 最 高 真实 标签 作为 该 簇 的 标签 。 然 后 使 用 测试 集 计 算 准确 率 。 具 体 
实现 如 下 : 

01 f 计算 每 个 簇 中 的 样本 个 数 ， 将 最 高 频 的 标签 作为 该 簇 的 标签 (使 用 idx) 

02 counts = np.zeros(shape=(3, k)) 

03 for i in range(len(idx)): 

04  counts[idx[i]] += mnist.train.labels[i] 

05 # 将 最 高 频 的 标签 分 配给 质心 

06 labels map = [np.argmax(c) for c in counts] 

07 labels map - tf.convert to tensor(labels map) 

08 4 评估 模型 

09 cluster label = tf.nn.embedding lookup(labels map, cluster. idx) 

10 £ 计算 准确 率 

11 correct prediction = tf.equal(cluster label, tf.cast(tf.argmax(Y, 1), tf.int32)) 


12 accuracy op = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
13 # 测试 模型 


14 test x, test y = mnist.test.images, mnist.test.labels 
15 print(" 测 试 准确 率 : ", sess.run(accuracy. op, feed dict-(X: test x, Y: test y])) 


运行 上 述 代 码 ， 可 以 看 到 最 后 训练 的 结果 输出 如 下 : 

测试 准确 率 : 0.7127 

可 以 看 出 ， 结 果 同 有 监督 学 习 中 对 MNIST 数 据 集 建 模 后 的 准确 率 相 比 有 一 定 的 差距 ， 
所 以 ， 无 监督 学 习 的 准确 率 还 需要 不 断 改进 。 


LECT DCN O 


自 编码 网 络 是 另 一 种 无 监督 学 习 方法 ， 通 过 对 信息 进行 “编码 -解码 ”来 完成 信息 的 
恢复 重建 ， 从 而 形成 模型 。 接 下 来 详细 介绍 自 编码 网 络 使 用 的 算法 ， 并 使 用 自 编码 网 络 实 
现 对 MNIST 数 据 集 的 识别 。 


[7.3.1 自 编码 网 络 笛 介 


自 编码 网 络 是 指 将 自 编码 的 思想 应 用 到 神经 网 络 算法 。 
1. 自 编码 器 


自 编码 器 就 是 一 种 试图 还 原 原 始 输入 的 系统 ， 由 编码 器 (Encoder) 和 解码 器 (Decoder) 两 
部 分 组 成 ， 如 图 7.2 所 示 。 


编码 器 将 输入 信号 x 变换 成 编码 信号 y， 再 由 解码 器 将 编码 信号 y 转 换 成 输出 信号 x'， 

在 数学 上 表示 为 : 
y= f(x) 
x 29g0)-29002) 

自 编码 器 的 目的 是 让 输出 信号 x' 尽 可 能 复 现 输入 信号 x。 但 是 如 果 ftx) 和 g(x) 是 恒 等 映 
射 ， 则 自 编 码 器 毫 无 意义 。 所 以 ， 我 们 经 常 对 中 间 信 号 y 做 一 定 的 约束 ， 使 系统 能 够 学 习 
得 到 的 编码 变换 fx) 和 g(x)， 这 两 者 既 不 是 恒 等 映射 ， 又 尽 可 能 使 输出 值 等 于 输入 值 。 
需要 注意 的 是 ， 对 于 自 编码 器 ， 我 们 往往 并 不 关心 输出 ， 而 真正 关心 的 是 中 间 层 的 编 
码 ， 因 为 我 们 使 用 自 编码 器 使 编码 信号 y 以 一 种 不 同 的 形式 承载 了 原始 数据 x 的 所 有 信息 ， 
也 就 是 对 x 的 一 种 自学 习 方式 的 特征 进行 提取 。 


au | 


Python+TensorFlow 机 器 学 习 实战 


Ius. 


2. 自 编码 神经 网 络 
自 编码 神经 网 络 就 是 使 用 神经 网 络 模型 将 输入 样本 编码 到 隐 层 ， 然 后 从 隐 层 解码 到 输 
出 层 进行 样本 重建 的 过 程 ， 如 图 7.3 所 示 。 


x y=x 


图 7.3” 自 编码 神经 网 络 模型 

其 中 ， 将 输入 层 数 据 x 转换 到 隐 层 4， 再 转换 到 输出 层 y。 整 个 过 程 可 以 表示 为 : 

h= f(x) = sigmoid((X -W) +b) 
x' = g(h) = sigmoid (ñ -W") + b') 

其 中 ， 从 输入 层 到 隐 层 是 一 个 编码 的 过 程 ， 通 过 去 掉 输入 数据 本 身 存在 的 不 同 程度 的 
元 余 信 息 ， 把 有 用 的 特征 输入 隐 层 。 可 以 说 ， 隐 层 是 在 尽量 不 损失 信息 量 的 情况 下 ， 对 原 
始 数据 的 另 一 种 表达 。 所 以 ， 我 们 应 对 隐 层 予以 特别 关注 。 

为 了 尽量 学 到 有 意义 的 表达 ， 一 般 给 隐 层 引入 一 定 的 约束 条 件 ， 常 见 的 约束 条 件 是 数 
据 维度 和 稀疏 性 。 

对 于 数据 维度 ， 一 般 要 求 隐 层 维度 小 于 输入 数据 维度 。 也 就 是 说 ， 自 编码 神经 网 络 试 
图 以 更 小 的 维度 描述 原始 数据 而 尽量 不 损失 数据 信息 。 

对 于 稀疏 性 ， 一 般 要 求 隐 层 维度 大 于 输入 数据 维度 ， 但 同时 会 约束 隐 层 的 神经 元 活跃 
程度 ， 希 望 大 部 分 神经 元 是 抑制 的 。 对 于 有 稀疏 性 限制 的 自 编码 器 ， 称 为 稀疏 自 编码 器 ， 
它们 能 够 有 效 地 找到 大 量 维度 中 真正 重要 的 若干 维 。 

对 于 自 编码 神经 网 络 的 损失 函数 ， 根 据 数据 的 不 同形 式 ， 一 般 选 择 二 次 误差 或 交叉 炉 
误差 。 


(7.3.2 自 编码 网 络 实 中 


下 面 使 用 自 编码 网 络 来 对 MNIST 数 据 集中 的 图 片 进行 类 型 标注 ， 最 后 使 用 测试 数据 进 
行 评估 。 

1. 加 载 数据 

对 于 MNIST 数 据 集 的 使 用 ， 我 们 已 经 非常 熟悉 了 。 但 在 无 监督 学 习 中 ， 进 行 训练 的 样 
本 仅仅 是 MNIST 数 据 集中 的 图 片 数 据 ， 而 并 没有 使 用 MINST 数 据 集中 的 标识 数据 。 


2. 自 编码 网 络 的 构建 

自 编码 网 络 的 构建 可 分 为 四 层 ， 分 别 是 输入 层 、 隐 层 1、 隐 层 2 和 输出 层 。 
输入 层 从 MNIST 数 据 集中 获取 输入 图 片 ， 维 度 为 28X28=784， 定 义 如 下 : 
x -tf.placeholder(tf.float32, [None, 784]) 


通过 隐 层 1 和 隐 层 2 对 输入 数据 进行 编码 和 解码 。 在 本 例 中 ， 使 用 数据 维度 限制 ， 使 两 
个 隐 层 的 神经 元 数量 都 低 于 输入 数据 维度 ， 分 别 设置 为 256 和 128。 

对 于 损失 函数 ， 选 择 二 次 误差 法 。 计 算 原始 输入 值 与 经 过 编码 -解码 后 的 输出 值 之 间 
的 平方 差 ， 作 为 损失 值 。 整 个 过 程 的 具体 实现 如 下 : 


O1 # 网 络 模型 ， 两 个 隐 层 
02 n hidden1-256 

03 n hidden2-128 

04 n input-784 


05 # 初 始 化 权重 

06 weights-( 

07 'encoder. h1*tf.Variable(tf.random normal([n input,n hidden1]) ), 

08 'encoder. h2"tf. Variable(tf.random normal([n hidden1,n hidden2]) ), 
09 'decoder. h1'tf.Variable(tf.random normal([n hidden2,n hidden1])), 
10 'decoder. h2"tf. Variable(tf.random normal([n hidden1,n input]) ), 


11 } 
12 # 初 始 化 偏 置 项 


13 biases={ 

14 'encoder_b1':tf.Variable(tf.random_normal([n_hidden1]) ), 
15 'encoder. b2"tf. Variable(tf.random normal([n hidden2]) ), 
16 'decoder. b1'tf.Variable(tf.random normal([n hidden1]) ), 
17 'decoder. b2":tf. Variable(tf.random  normal([n input]) ), 

18 ) 

19 # 编 码 函数 


20 def encoder(x): 

21  layeri-tf.nn.sigmoid(tf.ada(tf.matmul(x,weights['encoder. h1']),biases['encoder. b1'])) 
22 |ayer2-tf.nn.sigmoid(tf.add(tf.matmul(layer1,weights[l'encoder  h2])biases['encoder. b2'])) 
23 return layer2 

24 # 解 码 函 数 

25 def decoder(x): 

26  layeri-tf.nn.sigmoid(tf.add(tf.matmul(x,weights['decoder h1'])biases['decoder b1'])) 
27  layer2-tf.nn.sigmoid(tf.add(tf.matmul(layer1,weights['decoder h2'])biases['decoder. b27)) 
28 return layer2 

29 # 构 建 模型 

30 encoder_op=encoder(x_) 

31 decoder op-decoder(encoder. op) 

32 # 预 测 值 

33 y_pred=decoder_op 

34 # 真 实 值 

35 y true=x_ 

36 # 损 失 函 数 

37 leraning rate-0.01 # 学 习 率 

38 cost=tf.reduce_mean(tf.pow(y_true-y_pred,2)) 

39 optimizer=tf.train.RMSPropOptimizer(leraning_rate).minimize(cost) 
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3. 进行 数据 训练 
接 下 来 进行 正式 的 数据 训练 ， 具 体 实现 如 下 : 


01 sil 

02 training_epochs=20 

03 init = tf.global variables initializer() # 全 局 参数 初始 化 器 
04 sess = tf.Session() 

05 sess.run(init) 

06 total batch-int(mnist.train.num. examples/batch size) 
07 for epoch in range(training epochs): 

O8  foriinrange(total batch): 


09 batch. xs, batch. ys = mnist.train.next batch(batch size) 
10 ,C-sess.run([optimizer,cost]£feed dict-(x : batch xs]) 
11 if epoch 96 display step--0: 

12 print(epoch,"cost-",c) 


13 print("train Finished") 
运行 训练 数据 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 ， 如 图 7.4 所 示 。 


Extracting data/train-images-idx3-ubyte.gz 
Extracting data/train-labels-idx1-ubyte.gz 
Extracting data/tl0k-images-idx3-ubyte.gz 
Extracting data/t10k-labels-idx1-ubyte.gz 
cost- 0.220184 

cost- 0.180042 

cost- 0.165702 

cost- 0.154612 

cost- 0.151305 

cost- 0.148232 

cost- 0.14068 

cost- 0.136677 

cost- 0.132273 

cost- 0.125573 

cost- 0.121865 

cost- 0.118312 

cost- 0.114496 

cost- 0.110058 

cost- 0.108262 

cost= 0.104868 

cost- 0.104496 

cost- 0.10384 

cost- 0.101889 

19 cost- 06.101921 

train Finished 


图 7.4 损失 值 的 变化 情况 
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4. 评估 模型 
对 于 模型 的 评估 ， 我 们 从 MNIST 数 据 集中 选择 10 张 图 片 ， 分 别 绘制 原始 图 片 和 经 过 训 
练 后 的 自 编码 网 络 的 输出 图 片 ， 并 进行 对 比 。 具 体 实现 如 下 : 


01 # 从 MNIST 数 据 集中 选择 图 片 进行 测试 
02 encoder_decode=sess.run(y_pred,feed_dict={x_: mnist.test.images[:examples to show])) 


03 sess.close() 

04 # 比 较 结果 

05 f,a=plt.subplots(2,10,figsize=(10,2)) 

06 foriin range(examples_to_show): 

07 。 # 绘 制 数据 集 本 身 

08  a[OJ(i.imshow(np.reshape(mnist.test.images([i],(28,28))) 
09 .a[t][iJ.imshow(np.reshape(encoder. decode[i],(28,28))) 
10 f.show() 

11 plit.draw() 

12 plt.waitforbuttonpress() 


完成 评估 后 ， 查 看 绘制 的 原始 输入 图 片 和 经 过 训练 后 的 自 编 码 网 络 的 输出 图 片 ， 对 比 
情况 如 图 7.5 所 示 。 


25 0 25 Hd 50 250 50 25 25 
图 7.5 ”对比 原始 图 片 和 输出 图 片 
上 一 排 是 原始 输入 图 片 ， 下 一 排 是 经 过 训练 后 的 自 编码 网 络 的 输出 图 片 。 可 以 很 明显 
地 看 出 ， 经 过 训练 后 的 图 片 能 够 识别 出 对 应 的 数字 ， 但 是 存在 一 定 的 噪点 。 
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本 章 主 要 介绍 了 无 监督 学 习 的 概念 和 经 典 算 法 ， 并 详细 讲解 了 K 均 值 聚 类 算法 ， 以 及 
目前 火热 的 自 编码 网 络 学 习 方法 。 
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自然 语言 文本 处 理 


在 前 面 章节 中 ， 我 们 针对 机 器 学 习 的 
主要 算法 进行 了 介绍 。 接 下 来 ， 我 们 将 针 
对 自然 语言 处 理 、 语 音 处 理 、 图 像 处 理 、 
人 脸 识别 和 游戏 等 不 同 领域 讲解 机 器 学 习 
的 实际 应 用 。 


BEEEEZTETZ E 
E d 
自然 语言 处 理 是 人 工 智 能 领域 中 的 一 个 重要 研究 方向 ， 主 要 研究 人 与 计算 机 之 间 用 人 
类 语言 进行 有 效 沟通 的 理论 和 方法 。 自 然 语言 文本 处 理 通过 输入 一 段 文 本 ， 让 计算 机 识别 
这 段 文本 表达 的 含义 ， 包 括 文 本 本 身 的 含义 甚至 表达 的 情感 。 


EXE] 处 理 模型 的 选择 


在 自然 语言 文本 处 理 中 ， 对 输入 的 一 段 文本 进行 学 习 训练 后 ， 会 生成 一 种 对 应 的 输出 。 

对 于 输入 而 言 ， 是 一 段 自然 语言 文本 ， 与 上 下 文 之 间 有 着 密切 的 关系 。 要 理解 这 段 文 
本 ， 一 般 都 会 用 到 循环 神经 网 络 (RNN) 模 型 。 

对 于 输出 而 言 ， 根 据 实际 应 用 场景 ， 主 要 有 以 下 几 种 情况 。 

一 是 应 用 在 稿件 编写 、 对 图 像 进行 描述 等 场景 中 。 这 类 场景 都 针对 一 个 主题 ， 经 过 
学 习 ， 输 出 一 段 有 实际 表达 含义 的 语言 文本 。 采 用 的 神经 网 络 模型 一 般 包 括 CNN 和 RNN 
模型 。 

二 是 应 用 在 电影 评论 、 图 书评 论 等 情感 分 析 场景 中 。 这 类 场景 需要 针对 输入 的 评价 意 
见 区 别 出 积 极 或 消极 的 情感 。 采 用 的 模型 包括 基础 LSTM 模 型 等 。 
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三 是 应 用 在 机 器 翻译 中 ， 例 如 输入 一 段 英文 ， 然 后 翻译 为 中 文 语 句 的 场景 ， 采 用 的 
般 是 Seq2Seq 模 型 。 


EXE] xe 


在 前 面 针对 机 器 学 习 算 法 的 讲解 中 ， 我 们 都 是 直接 对 数字 进行 处 理 。 但 是 ， 自 然 语 
言 文本 并 不 是 数字 ， 如 果 将 这 些 机 器 学 习 算法 应 用 到 自然 语言 文本 的 处 理 中 ， 就 必须 将 
文本 转换 成 数字 。 对 于 从 文本 到 数字 的 转换 ， 实 现 方法 经 过 了 不 断 演化 ， 主 要 方法 包括 
如 下 类 型 。 

1. 词 袋 模型 


词 袋 模型 将 文本 或 文档 看 作 一 袋子 单词 ， 不 考虑 语法 和 词 序 关系 ， 每 个 词 都 是 独立 
的 ， 然 后 对 这 袋子 单词 进行 编码 。 例 如 ， 我 们 需要 处 理 的 语句 是 : 


TensorFlow is a good tool for making machine learning easier. 


我 们 需要 将 语句 中 出 现 的 所 有 单词 都 转换 为 对 应 的 数字 。 
首先 构造 所 有 单词 的 词典 : 
{ 


" TensorFlow ": 1, 
"Br 

"arg 

"good ": 4, 

"tool ": 5, 

"for": 6, 

" making ": 7, 

" machine ": 8, 

" learning ": 9, 

" easier ": 10 


i 

然后 使 用 该 词典 ， 对 语句 进行 编码 。 一 般 采 用 的 词 向 量 的 编码 方式 为 独 热 编 码 (one 
hot representation)。 换 言 之 ， 如 果 词 典 中 的 单词 在 语句 中 出 现 了 ， 则 词典 中 该 位 置 索引 被 
标识 为 1。 按 照 这 种 编码 方式 ， 语 句 


TensorFlow is a good tool for making machine learning easier. 


对 应 的 标识 为 : 


同样 ， 我 们 对 一 个 新 的 语句 : 

Machine learning is a good tool for making data mining easier. 
依照 词典 进行 编码 ， 则 表示 为 : 

[0537513554411] 


aea | 
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使 用 词 袋 模型 可 以 依据 词典 对 语句 进行 编码 ， 但 是 需要 特别 注意 以 下 几 点 。 

第 一 ， 词 袋 模型 没有 考虑 词语 在 文本 中 的 上 下 文 之 间 的 相关 信息 ， 损 失 了 语句 中 单词 
的 顺序 特征 。 常 常会 出 现 两 个 含义 完全 不 同 的 语句 ， 如 果 使 用 的 单词 完全 一 样 ， 则 对 应 的 
编码 也 是 相同 的 ， 例 如 : 


TensorFlow is a good tool for making machine learning easier. 
Machine learning is a good tool for making TensorFlow easier. 


这 两 个 语句 的 转换 结果 都 是 : 

| 

第 二 ， 对 于 每 一 个 语句 ， 无 论语 句 的 长 短 如 何 ， 都 会 使 用 相同 词典 长 度 的 编码 。 为 了 
保证 词语 的 覆盖 范围 ， 一 般 情况 下 会 选择 非常 大 的 词汇 量 作 为 词典 。 因 此 ， 语 句 的 表示 向 
量 会 非常 稀疏 。 

第 三 ， 每 一 个 单词 都 具有 相同 的 数值 化 索引 ， 无 法 体现 单词 在 语句 中 的 重要 性 。 例 
如 ， 所 处 理 语句 中 的 单词 TensorFlow 和 is 具有 相同 的 数值 化 索引 值 1， 但 是 对 于 理解 语句 ， 
单词 TensorFlow 明 显 比 单词 is 更 重要 ， 词 袋 模型 无 法 体现 这 种 强 弱 关系 。 

2. TF-IDF 算 法 

为 了 解决 词 袋 模型 中 每 一 个 单词 都 具有 相同 的 索引 ， 无 法 体现 不 同 单词 重要 程度 的 
问题 ， 创 建 了 TF-IDF(Term Frequency-Inverse Document Frequency， 词 频 -逆向 文件 频率 ) 

该 算法 原本 是 用 于 资讯 检索 的 一 种 常用 加 权 技 术 ， 使 用 统计 学 方法 来 评估 一 个 单词 对 
于 文件 集 或 一 份 文件 对 于 语料库 的 重要 程度 。 它 从 两 方面 来 判断 单词 的 权重 值 ， 分 别 是 词 
频 和 文件 频率 。 

首先 ， 我 们 考虑 词 频 。 词 频 是 某 个 单词 在 文档 中 出 现 的 频率 ， 根 据 词 频 可 确定 每 个 单 
词 的 权重 Wy: 


_ 单词 W 出 现 的 次 数 
该 文档 中 所 有 单词 的 数目 

我 们 认为 某 个 单词 在 文档 中 出 现 的 次 数 越 多 ， 它 就 越 重 要 。 

但 是 ， 对 于 一 些 通用 的 单词 ， 如 the、a 等 ， 虽 然 在 文档 中 出 现 的 频率 都 非常 高 ， 但 是 
对 于 主题 并 没有 太 大 的 作用 ， 所 以 单纯 使 用 词 频 是 不 够 的 。 

对 于 通用 单词 ， 它 们 在 每 一 篇 文档 中 出 现 的 频率 都 非常 高 ， 而 与 文档 主题 有 关 的 
单词 ， 仅 仅 会 在 一 篇 文档 中 出 现 的 频率 较 高 。 根 据 这 一 特征 ， 于 是 就 有 了 逆向 文件 频率 
(Inverse Document Frequency, IDF). 

IDF 的 主要 思想 就 是 : 在 整个 语料库 中 ， 包 含 词 条 的 文档 越 多 ， 就 说 明 词 条 ! 极 有 可 
能 是 通用 单词 ， 其 与 文档 主题 的 关联 性 较 小 ，IDF 较 小 ;， 反之， 包含 词 条 t 的 文档 越 少 ， 就 
说 明 词 条 t 极 有 可 能 与 文档 的 主题 相关 ，IDF 越 大 。 对 于 某 一 特定 词 条 的 IDF， 可 以 用 总 文 
件数 目 除 以 包含 该 词 条 之 文件 的 数目 ， 再 对 得 到 的 商 取 对 数 来 进行 计算 ， 公 式 为 : 


Wy 
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语料库 中 文档 总 数 1 

DF 一 0g( 各 含 词 条 7 的 文档 煞 ) E Wa 

结合 词 频 和 文件 频率 两 方面 的 权重 设计 ， 就 可 以 找到 一 种 适合 的 计算 方法 ， 使 得 一 个 

词 条 与 主题 的 关联 越 强 ， 权 重 越 大 ， 关 联 越 弱 ， 权 重 越 小 。 所 以 对 于 每 个 单词 ， 它 在 每 个 
文档 中 的 TF-IDF 值 可 以 表示 为 : 


) 


1 
W, y =W, bg) 

其 中 ，Wiy 是 文档 中 词 条 的 词 频 ，Way 是 包含 该 词 条 的 所 有 文档 的 总 频率 。 

清楚 了 一 个 词 条 的 TF-IDF 后 ， 在 实际 计算 时 就 能 够 找到 重要 的 词语 ， 过 滤 掉 不 那么 重 
要 的 词语 ， 从 而 可 以 在 保证 有 效 性 的 情况 下 降低 运算 量 。 

3. 词语 的 分 布 式 表示 

在 词 袋 模型 中 ， 采 用 了 one-hot representation 编 码 方式 。 这 种 编码 方式 仅仅 对 词语 进行 
了 符号 化 ， 并 没有 很 好 地 利用 自然 语言 中 单词 的 顺序 和 语义 信息 。 

Harris 在 1954 年 提出 的 分 布 假说 认为 : 上 下 文 相似 的 单词 ， 语 义 也 相似 。 在 1957 年 ， 
Firth 进 一 步 阐 述 和 明确 了 分 布 假说 ， 他 认为 : 单词 的 语义 由 上 下 文 决 定 。 

基于 分 布 假说 ， 对 自然 语言 的 表示 可 以 分 为 两 大 步骤 : 首先 ， 选 择 一 种 方式 来 描述 上 
下 文 ; 其 次 选择 一 种 模型 来 描述 目标 词 与 上 下 文 之 间 的 关系 。 在 实践 中 ， 主 要 可 以 分 为 三 
类 :基于 和 矩阵 的 分 布 表 示 、 基 于 聚 类 的 分 布 表 示 和 基于 神经 网 络 的 分 布 表示 。 

基于 神经 网 络 的 分 布 表 示 又 称 为 词 向 量 或 词 嵌入 (word embedding)。 由 于 神经 网 络 词 
向 量 表示 技术 通过 神经 网 络 技术 对 上 下 文 ， 以 及 上 下 文 与 目标 词 之 间 的 关系 进行 建 模 ， 
此 在 表示 复杂 的 上 下 文 时 ， 具 有 明显 的 优势 。 

除了 解决 单词 顺序 问题 ， 还 需要 解决 one-hot representation 编 码 方式 具有 维度 过 大 的 
缺点 ， 因 此 在 词 向 量 表示 中 还 进行 了 两 点 改进 : 一 是 将 词 向 量 中 的 每 个 元 素 由 整 型 改 为 
浮 点 型 ， 变 为 整个 实数 范围 ;二 是 将 原来 稀疏 的 巨大 维度 压缩 并 嵌入 到 一 个 更 小 维度 的 
空间 。 

4. word2vec 方 法 

在 2013 年 ， 谷 歌 的 工程 师 创建 了 一 种 词 向 量 方法 来 实现 基于 神经 网 络 的 词 分 布 表示 ， 
该 方法 被 命名 为 word2vec。 在 word2vec 方 法 中 ， 提 出 并 实现 了 CBOW(Continuous Bag Of 
Word， 连 续 词 袋 模型 ) 和 skip-gram 语 言 模型 。 

CBOW 通 过 上 下 文 来 预测 目标 词 的 模型 ， 而 skip-gram 语 言 模型 从 一 个 单词 来 预测 上 下 
文 的 模型 。 这 两 个 模型 的 对 比如 图 8.1 所 示 。 
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INPUT PROJECTION OUTPUT IUTPUT PROJECTION OUTPUT 
w(t-2) 4 w(t-2) 
w(t-1) i 1 w(t-1) 
SUM 
< > w(t) w(t) | > 
4 
w(t-1) ^ w(t-1) 
w(t+2) A owe 
CBOW 模 型 skip-gram 模 型 


58.1 CBOW 模 型 和 skip-gram 模 型 


CBOW 模 型 是 一 个 典型 的 神经 网 络 ， 需 要 关注 的 是 输入 层 、 隐 层 、 输 出 层 以 及 损失 


函数 。 


输入 层 是 目标 词 的 上 下 文 的 独 热 编 码 方式 ， 也 就 是 C 个 1X 7 的 矩阵 。 

隐 层 将 这 C 个 1X 7 的 矩阵 分 别 与 同一 个 FrX N 大 小 的 权重 矩阵 相 乘 ， 然 后 取 平 均值 。 

输出 层 将 隐 层 的 输入 值 与 一 个 NXV 大 小 的 权重 和 矩阵 相 乘 ， 得 到 1 XV 的 输出 值 。 该 输 
出 值 中 的 每 个 元 素 代表 的 就 是 词 库 里 每 个 词 的 事后 概率 。 

损失 函数 就 是 输出 层 的 输出 值 与 目标 词 真实 的 独 热 编码 形式 做 比较 后 的 计算 结果 。 

在 实际 的 实现 过 程 中 ， 由 于 7 通常 是 一 个 很 大 的 数 ， 因 此 计算 起 来 相当 费时 。 在 
word2vec 方 法 中 ， 用 基于 huffman 编 码 的 hierarchical softmax 筛 选 掉 了 一 部 分 不 可 能 的 词 ， 
然后 又 用 nagetive samping 去 掉 了 一 些 负 样本 的 词 ， 从 而 降低 了 复杂 度 。 

skip-gram 语 言 模型 的 训练 过 程 类 似 ， 只 不 过 输入 和 输出 刚好 相反 。 


TensorFlow 文 本 处 理 的 一 般 步骤 


自然 语言 文本 的 处 理 一 般 分 为 文本 初始 化 、 模 型 构建 、 模 型 训练 和 评估 。 对 于 模型 的 
构建 、 训 练 和 评估 ， 可 以 分 为 如 下 步骤 。 


(OR 


先 需要 对 原始 数据 进行 初始 化 ， 主 要 包括 对 原始 数据 的 清洗 ， 涉 及 大 小 写字 


符 、 标 点 符号 、 数 字 、 空 白字 符 以 及 自然 语言 处 理 中 停 用 词 (stop word) 的 处 理 。 


QR 
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据 处 理 后 的 数据 ， 通 过 生成 词汇 表 、 转 换 词 编码 的 方式 ， 在 文字 与 数值 之 间 建 
中 ， 并 对 输入 数据 进行 编码 。 
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© 构建 处 理 模型 ， 一 般 是 在 循环 神经 网 络 模型 的 基础 上 进行 调整 。 
@@ 训练 和 评估 模型 。 
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唐诗 是 汉语 使 用 成 就 的 一 块 瑰宝 ， 在 本 节 中 我 们 将 使 用 唐诗 的 生成 过 程 来 讲解 对 自然 
语言 文本 的 处 理 。 

自然 语言 文本 的 处 理 采 用 神经 网 络 模型 ， 步 又 一 般 可 分 为 数据 预 处 理 、 生 成 训练 模型 
和 评估 模型 。 


[8.2.1| 数据 预 处 理 


对 于 自然 语言 文本 处 理 ， 关 键 的 一 步 就 是 训练 数据 的 处 理 ， 主 要 包括 原始 数据 的 清 
洗 、 生 成 词典 和 生成 词 编码 。 


1. 原始 数据 的 清洗 


这 里 ， 我 们 选择 的 训练 数据 就 是 全 唐诗 文本 。 在 文本 中 有 标题 和 内 容 ， 格 式 上 存在 空 
格 等 字符 。 我 们 对 训练 数据 进行 清洗 ， 具 体 实现 如 下 : 


01 poetry. list = [] # 存放 唐诗 的 数组 

02 # 从 文件 中 读 取 唐诗 

03 with open(ORIGIN DATA, 'rb') as f: 

04 fines = f.readlines() 

05 print (唐诗 总 数 : ().format(len(f. lines))) 
06 。 # 逐 行进 行 处理 

07  forline inf lines: 


08 strip line = line.strip().decode('utf8") # 去 除 前 后 空白 符 ， 转 码 
09 try: 

10 title, content = strip line.split('") 3 将 唐诗 分 为 标题 和 内 容 
41 except: 

12 continue 

13 content = content.strip().replace(' ', ") # 去 除 内 容 中 的 空格 

14 # 舍弃 含有 非法 字符 的 唐诗 

15 if (' in content or '( in content or '<' in content or ' (' in content or ' in content or ' in content: 
16 continue 

T7 lenth = len(content) 

18 if lenth < 20 or lenth > 100: # 舍弃 过 短 或 过 长 的 唐诗 
19 continue 

20 # 加 入 列表 

21 poetry_listappend(s' + content + 'e') 

22 print (用 于 训练 的 唐诗 数 : 人 }.format(len(poetry_list))) 

2. 生成 词典 


从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 。 为 了 避免 低频 词 的 干 
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扰 ， 同 时 减少 模型 参数 ， 我 们 只 保留 部 分 高 频 词 来 生成 词典 ， 具 体 实现 如 下 : 


01 
02 
03 
04 
05 


poetry_list=sorted(poetry_list,key=lambda x:len(x)) 
words list = [] 
# 获取 唐诗 中 的 所 有 字符 
for poetry in poetry. list: 

words. list.extend([word for word in poetry]) 
3 统计 出 现 的 次 数 
counter = collections.Counter(words list) 
# 排序 
Sorted words = sorted(counter.items(), key=lambda x: x[1], reverse=True) 
# 获得 按 出 现 次 数 降序 排列 的 字符 列表 
words list = ['<unknow>"] + [x[0] for x in sorted words] 
words list = words list(:len(words list)] 
print (词典 大 小 : ['.format(words list) 
# 保 存 词典 数据 
with open(VOCAB_DATA, w') as f: 

for word in words list: 

f.write(word + ^n") 


3. 生成 词 编码 


文字 是 无 法 直接 输入 模型 中 的 ， 所 以 需要 根据 词典 对 训练 数据 进行 编码 ， 然 后 才能 使 
用 。 编 码 过 程 的 具体 实现 如 下 : 


01 
02 


def word to id(word, id dict): 
if word in id. dict: 
return id. dict[word] 
else: 
return id. dict'Kunknow?'] 
3t 生成 单词 到 id 的 映射 
word id dict = dict(zip(words list, range(len(words list)))) 
# 将 poetry_list 转 换 成 向 量 形式 
id list-[] 
for poetry in poetry. list: 
id list.append([str(word to id(word,word id dict)) for word in poetry]) 
T 将 向 量 写 入 文件 
with open(OUTPUT DATA, 'w)as f: 
forid linid list: 
fwrite( '.join(id I) + \n) 


| 8.2.2| 生成 训练 模型 


对 于 训练 模型 ， 选 择 LSTM 模 型 为 基础 模型 进行 改造 ， 主 要 包括 一 个 输入 层 、 一 个 
LSTM 层 、 一 个 全 连接 神经 网 络 层 和 一 个 输出 层 。 


01 


def train(self): 
tf.reset default graph() 
x data = tf.placeholder(tf.int32, [BATCH SIZE, None]) # 输入 数据 
y. data = tf.placeholder(tf.int32, [BATCH SIZE, None]) # 标签 
emb keep = tf.placeholder(tf.float32) # embedding 层 dropout 保 留 率 


06 rn keep = tf.placeholder(tf.float32) # LSTM 层 dropout 保 留 率 

07 data = dataset.Dataset(BATCH SIZE) s 创建 数据 集 

08 global step = tf. Variable(0, trainable=False) 

09 Istm cell = [ 
tf.nn.mn  cell.DropoutWrapper(tf.nn.mn cell.BasicLSTMCell(HIDDEN SIZE), output keep . 
prob=rnn_keep)for _ inrange(NUM LAYERS)] 

10 cell = tf.nn.mn cell.MultiRNNCell(Istm cell) 

11 3t 创建 词 嵌入 矩阵 权重 

12 embedding = tf.get variable'embedding', shape-[VOCAB SIZE, HIDDEN. SIZE]) 

13 # 创建 softmax 层 参数 

14 softmax weights = tf.get variable('softmaweights', shape=[HIDDEN_SIZE, VOCAB SIZE]) 

18 Softmax bais = tf.get. variable('softmax bais', shape-[VOCAB SIZE]) 

16 # 进行 词 嵌入 

17 emb = tf.nn.embedding lookup(embedding, x. data) 

18 # dropout 

19 emb_dropout = tf.nn.dropout(emb, emb_keep) 

20 3 计算 循环 神经 网 络 的 输出 

21 init state = cell.zero_state(BATCH_SIZE, dtype=tf.float32) 

22 outputs, last. state = tf.nn.dynamic rnn(cell, emb dropout, scope-'d rnn', 
dtypeztf.float32, initial state-init state) 

23 outputs = tf.reshape(outputs, [-1, HIDDEN. SIZE]) 

24 3t 计算 logits 

25 logits = tf.matmul(outputs, softmax_weights) + softmax_bais 

26 # 损 失 函 数 ， 计 算 交 叉 粒 

27 outputs, target = tf.reshape(y. data, [71]) 


28 COSS = tf.nn.sparse softmax cross entropy with logits(logits-logits,labels-outputs target, ) 

29 loss = tf.reduce mean(coss) 

30 # 学 习 率 

31 learn rate = tf.train.exponential decay(LEARN RATE, global_step, LR_DECAY_STEP, LR_ 
DECAY) 

a2 # 计算 梯度 ， 并 防止 梯度 爆炸 

33 trainable variables = tf.trainable variables() 


34 grads, -tf.clip by global norm(tf.gradients(loss, trainable variables), MAX GRAD) 
35 3 创建 优化 器 

36 optimizer = tf.train.AdamOptimizer(learn rate) 

37 train op = optimizer.apply. gradients(zip(grads, trainable variables), global step) 


接 下 来 进行 正式 的 数据 训练 。 在 训练 过 程 中 保存 训练 模型 ， 便 于 评估 时 使 用 。 具 体 实 
现 如 下 : 


01 # 开 始 训练 

02 saver = tf.train.Saver() 

03 with tf.Session() as sess: 

04 sess.run(tf.global variables initializer()) # 初始 化 

05 for step in range(TRAIN TIMES): 

06 # 获取 训练 batch 

07 X, y = data.next. batch() 

08 # 计算 损失 

09 Loss, -sess.run([lss, train op], feed _dict={x_data: x, 
y. data:y, emb. keep:EMB. KEEP, mn keep:RNN KEEP)) 

10 if step % SHOW. STEP == 0: 
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11 print (step 1, loss is (J.format(step, Loss)) 

12 # 保存 模型 

13 if step 96 SAVE STEP == 0: 

14 saver.save(sess, CKPT PATH, global step-global step) 


运行 上 述 代码 ， 可 以 看 到 在 训练 过 程 中 损失 值 的 变化 情况 以 及 模型 对 测试 数据 集 准确 
率 的 提升 情况 ， 如 图 8.2 所 示 。 


Reloaded modules: rnn model, dataset, setting, 
utils 

step 0, loss is 8.744064331054688 
step 1, loss is 8.742897987365723 
step 2, loss is 8.741910934448242 
step 3, loss is 8.741204261779785 
step 4, loss is 8.73952865600586 
step 5, loss is 8.738457679748535 
step 6, loss is 8.736448287963867 
step 7, loss is 8.734400749206543 
step 8, loss is 8.730825424194336 
step 9, loss is 8.727068901062012 
step 10, loss is 8.721028327941895 
step 11, loss is 8.713068962097168 
step 12, loss is 8.701953887939453 
step 13, loss is 8.686874389648438 


图 8.2 ”生成 训练 模型 
同时 ， 会 在 指定 文件 夹 中 生成 训练 模型 的 相关 数据 ， 文 件 如 图 8.3 所 示 。 
名 称 B 
checkpoint 
model ckpt-1.data-00000-0f-00001 
|.] model ckpt-1.index 
model ckpt-1.meta 
model ckpt-101.data-00000-of-00001 
model ckpt-101.index 
model ckpt-101.meta 
model ckpt-201.data-00000-of-00001 
model ckpt-201.index 
model ckpt-201.meta 


图 8.3 ”生成 训练 模型 的 相关 数据 
| 8.2.3 cd 


对 于 模型 的 评估 ， 我 们 以 实现 唐诗 的 输出 为 目标 ， 分 别 实现 随机 生成 一 首 唐诗 和 生成 
一 首 藏 头 诗 。 

生成 唐诗 的 过 程 是 : 通过 已 用 文字 ， 不 断 预测 其 后 出 现 的 文字 。 具 体 而 言 ， 就 是 当 有 
一 个 文字 A 后 ， 将 该 文字 转换 为 id 数值 ， 对 id 数值 使 用 训练 模型 进行 训练 ， 生 成 一 个 输出 id 


la 
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数值 ， 最 后 将 该 输出 id 数值 转换 为 一 个 文字 B， 从 而 获得 输入 文字 A 的 后 续 文 字 B。 不 断 迭 
代 获 得 后 续 文 字 ， 最 终 组 成 一 句 诗 。 使 用 训练 模型 的 具体 实现 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 


16 
17 
18 
19 


20 
21 
22 


x data - tf.placeholder(tf.int32, [1, None]) 

emb keep = tf.placeholder(tf.float32) 

rnn keep = tf.placeholder(tf.float32) 

saver = tf.train.Saver() 

3t 单词 到 id 的 映射 

word2id_dict = utils.read_word to id dict() 

# id 到 单词 的 映射 

id2word dict = utils.read id to word dict() 

# 验证 用 模型 

embedding = tf.get variable'embedding', shape=[VOCAB SIZE, HIDDEN. SIZE]) 
softmax. weights = tf.get. variable('softmaweights', shape-[HIDDEN. SIZE, VOCAB. SIZE]) 

softmax. bais = tf.get variable('softmax bais', shape-[VOCAB. SIZE]) 

emb = tf.nn.embedding lookup(embedding, x. data) 

emb dropout = tf.nn.dropout(emb, emb keep) 

Istm cell = [tf.nn.rnn cell.DropoutWrapper(tf.nn.mn cell.BasicLSTMCell((HIDDEN. SIZE), 

output keep prob-rnn keep)for in range(NUM LAYERS)] 

cell = tf.nn.rnn. cell.MultiRNNCell(lstm cell) 

# 与 训练 模型 不 同 ， 这 里 只 生成 一 首 古 体 诗 ， 所 以 batch_size=1 

init state = cell.zero state(1, dtype-tf.float32) 

outputs, last. state = tf.nn.dynamic  rnn(cell, emb dropout, scope-'d rnn', 

dtypeztf.float32, initial state-init state) 

outputs = tf.reshape(outputs, [-1, HIDDEN. SIZE]) 

logits = tf.matmul(outputs, softmax weights) + softmax bais 

probs = tf.nn.softmax(logits) 


下 面 以 随机 生成 一 首 唐诗 为 例 ， 具 体 实现 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 


11 
12 


13 
14 
15 
16 
17 
18 


19 


with tf.Session() as sess: 

# 加 载 最 新 的 模型 

Ckpt = tf.train.get checkpoint state('ckpt) 

saver.restore(sess, ckpt.model checkpoint path) 

if poemtype--'poem: # 随 机 生成 一 首 唐诗 
# 预 测 第 一 个 文字 
rnn_state = sess.run(cell.zero_state(1, tf.float32)) 
x = np.array([[word2id_dict['s"]], np.int32) 
锥 忆 录 最 后 的 状态 ， 以 此 循环 生成 文字 ， 直 到 完成 一 首 唐诗 
prob, rnn_state = sess.run([probs, last state], 

(x. data: x, init state: rmn. state, emb_keep: 1.0, rmn. keep: 1.0]) 

idword = sorted(prob, reverse-True)[:100] 
index 7 np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 
word = id2word dict[int(index)] 


poem s" 
while word != 'e': # 循环 操作 ， 直 到 预测 出 结束 符号 'e' 
poem += Word 


x = np.array([[word2id dict[word]]]) 

prob, mn state = sess.run([probs, last state], 

Íx. data: x, init state: rmn. state, emb keep: 1.0, rnn. keep: 1.0)) 
idword = sorted(prob, reverse-True)[:100] 
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20 index = np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 

21 word = id2word dict[int(index)] 

22 # 打印 生成 的 唐诗 

23 print (poem) 


运行 上 述 代码 ， 随 机 生成 一 首 唐诗 : 


留 和 吹 破 信和 森 罗 ， 
穆 矣 声 中 更 赞 谁 。 
座 上 霜 浓 天 下 久 ， 
满 身 应 是 去 经 年 。 


生成 一 首 藏 头 诗 的 过 程 与 随机 生成 唐诗 的 过 程 类 似 ， 只 是 每 一 句 开头 的 文字 需要 以 要 


求 的 藏 头 文字 开始 ， 具 体 实现 如 下 : 


01 if poemtype--' head' : # 生 成 藏 头 诗 ， 进 行 预测 

02 mn. state = Sess.run(cell.zero_state(1, tffloat32)) 

03 poem =" 

04 cnt=1 

05 3 逐 句 生成 诗歌 

06 for x in poemstr: 

07 word 7 x 

08 while word !- ', ' and word !=', *: 

09 poem += word 

10 x = np.array(([word2id dict(word]]]) 

11 prob, rmn state = sess.run([probs, last. state], 
(x. data: x, init state: rnn. state, emb. keep: 1.0, rnn. keep: 1.0]) 

12 idword = sorted(prob, reverse-True)[:100] 

19 index = np.searchsorted(np.cumsum(idword), 
np.random.rand(1) * np.sum(idword)) 

14 word = id2word dict[int(index)] 

15 iflen(poem) > 25: 

16 print (bad.) 

"7 break 

18 # 根据 单 双 句 添加 标点 符号 

19 if cnt & 1: 

20 poem +=', ' 

21 else: 

22 poem +=', ' 

23 cnt *- 1 

24 3t 打印 生成 的 藏 头 诗 

25 print (poem) 

我 们 以 “生日 快乐 ”为 藏 头 ， 运 行 上 述 代码 ， 生 成 一 首 藏 头 诗 ， 如 下 所 示 : 

生 金 有 气 寻 还 远 ， 

日 落 云 收 亚 翠 屏 。 

快 风 一 瞬 收 残 雨 ， 

乐天 知 命 了 无 忧 。 


通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 自然 语言 处 理 方式 。 
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| VJ 智能 影评 分 类 T 


自然 语言 文本 处 理 除了 能 够 智能 编写 诗词 、 歌 曲 甚至 稿件 外 ， 还 包括 从 人 类 的 自然 语 
言 文本 中 获取 人 们 的 情感 。 

本 节 通 过 创建 CBOW 单 词 嵌 套 ， 并 使 用 它们 对 影评 数据 进行 情感 分 析 来 区 别 大 家 对 电 
影 的 态度 。 


| 8.3.1 攻 ee 2 


CBOW 髓 套 模型 是 word2vec 方 法 的 一 种 实现 模型 ， 能 够 比较 好 地 体现 词 序 关系 。 它 是 
一 种 通过 上 下 文 来 预测 目标 词 的 模型 ， 在 本 节 中 ， 将 通过 康 奈 尔 大 学 提供 的 影评 数据 集 
(http://www.cs.cornell.edu/people/pabo/movie-review-data/) 来 实现 该 模型 。 

影评 数据 集 由 电影 评论 组 成 ， 其 中 包括 肯定 和 否定 态度 的 评论 各 1000 篇 、 标 注 了 蛮 贬 
属性 的 句子 各 5331 句 、 标 注 了 主客 观 标 签 的 句子 各 5000 句 。 正 因为 如 此 ， 该 影评 数据 库 是 
情感 分 析 研 究 中 使 用 最 广泛 的 数据 集 ， 能 够 应 用 到 分 析 篇 章 、 句 子 、 词 语 等 各 种 细 粒 度 的 
情感 分 析 场景 中 。 

使 用 影评 数据 集 实现 CBOW 翌 套 模型 的 过 程 需要 包括 加 载 数 据 、 归 一 化 文本 、 构 建 词 
典 、 创 建 词 向 量 训练 模型 以 及 训练 词 向 量 模型 几 个 步 又 。 

1. 加 载 数据 

影评 数据 集 是 可 以 下 载 的 ， 其 中 ，rt-polarity.pos 中 包括 正面 评价 5331 句 ，rt-polarity. 
neg 中 包括 负面 评价 3331 句 。 对 数据 的 加 载 主要 包括 下 载 数据 集 并 对 正面 评价 、 负 面 评 价 
信息 进行 加 载 ， 具 体 实现 如 下 : 


01 defload movie data(): 


02 save folder name = 'temp' # 存 放 地 址 
03 pos file = os.path.join(save folder name, 'rt-polaritydata', 'rt-polarity.pos') #E 面 评价 
04 neg file = os.path.join(save folder name, 'rt-polaritydata', rt-polarity.neg) # 负 面 评价 


O5 ”# 本 地 是 否 存 在 影评 数据 集 ， 不 存在 则 下 载 
06  ifnotos.path.exists(os.path.join(save folder name, 'rt-polaritydata")): 


07 movie data url = 'http://www.cs.cornell.edu/people/pabo/movie- 
review-data/rt-polaritydata.tar.gz* 

08 req = requests.get(movie data url, stream- True) 

09 with open('temp movie review temp.tar.gz', wb") as f: 

10 for chunk in req.iter content(chunk  size-1024): 

71 if chunk: 

12 f.write(chunk) 

13 fflush() 


14 tar = tarfile.open(temp_movie_review_temp.tar.gz', "r:gz") ”# 解 压 数据 集 
15 tar.extractall(path-'temp") 

16 tar.close() 

17 pos data-[] # 获 取 正 面 评价 

18 with open(pos file, '', encoding-'latin- 1) as f: 
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19 or line in f: 

20 pos data.append(line.encode('ascii',errors-'ignore").decode()) 
21  fclose() 

22 pos data [x.rstrip() for x in pos. data] 

23 neg data-[) # 获 取 负 面 评价 

24 with open(neg file, '', encoding-'latin- 1) as f: 

25 or line in f: 

26 neg. data.append(line.encode('ascii',errors-'ignore").decode()) 
27  fclose() 

28 neg data [x.rstrip() for x in neg data] 

29 texts = pos data + neg data 

30 target = [1]*len(pos data) + [O]*len(neg. data) 

31  return(texts, target) 


2. 归 一 化 文本 

对 于 输入 的 文本 字符 串 信 息 ， 可 能 存在 大 小 写字 符 、 标 点 符号 、 数 字 、 空 白字 符 等 情 
况 ， 而 且 还 可 能 存在 自然 语言 处 理 中 的 停 用 词 情况 。 

停 用 词 主要 包括 the、is、at、which 和 on 等 没有 实际 含义 的 单词 ， 中 文 则 包括 使 用 频率 
特 高 的 单 汉 字 等 。 在 自然 语言 处 理 中 ， 这 些 词 本 身 不 具备 实际 含义 ， 在 处 理 过 程 中 如 果 遇 
到 它们 ， 则 立即 停止 处 理 ， 将 其 扔 掉 。 这 样 就 可 以 减少 计算 量 ， 提 高 效率 ， 并 且 通 常 都 会 
增强 最 终 的 效果 。 对 于 停 用 词 的 处 理 ， 使 用 NLTK 第 三 方 工具 包 来 实现 。 在 代码 中 加 入 : 


import nitk 
nitk.download() 


运行 上 述 代 码 ， 将 会 出 现 NLTK 的 下 载 管理 器 ， 下 载 对 应 的 停 用 词 包 ， 用 于 后 续 训 
练 ， 如 图 8.4 所 示 。 


4 NUI Downloader TU = E " tola 
Fle View Sort Help 
All Packages 

Identifier Name Size Status $ 
sentiwordnet SentiWordNet not installed 
shakespeare Shakespeare XML Corpus Sample 464.3 KB | not installed 
sinica treebank Sinica Treebank Corpus Sample 878.2 KB | not installed 
smultron SMULTRON Corpus Sample 1623 KB | not installed 
snowball data Snowball Data 6.5 MB not installed 
spanish grammars | Grammars for Spanish 40KB | notinstalled 
state_union C-Span State of the Union Address Corpus 789.8 KB | not installed 
stopwords Stopwords Corpus | 17.1KB | installed 
subjectivity Subjectivity Dataset v0 509.4 KB | notinstaled — || 
swadesh Swadesh Wordlists 22.3 KB not installed 
switchboard Switchboard Corpus Sample 772.6 KB | not installed 
tagsets Help on Tagsets 337 KB not installed |.— 
timit TIMIT Corpus Sample 212MB | notinstalled | | 
toolbox Toolbox Sample Files 2447 KB | not installed 
treebank Penn Treebank Sample 17 MB not installed 
twitter samples Twitter Samples 153 MB | notinstalled ~ 


Download| Refresh 


Server Index [https : / /raw.githubusercontent.com/nltk/nltk data/gh- 


Download Directory: (C : NUsers Administrator VAppDataVRoamingVnltk data | 


图 8.4 使 用 NLTK 第 三 方 工具 包 下载 数 据 
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在 归 一 化 文本 处 理 中 ， 具 体 实现 如 下 : 


01 from nltk.corpus import stopwords 


02 stops = stopwords.words('english") # 停 用 词 选 取 

03 def normalize text(texts, stops): # 归 一 化 处 理 方法 

04 texts = [x.lower() for x in texts] # 大 小 写 处 理 

05 texts = ["join(c for c in x if c not in string.punctuation) for x in texts] # 移 除 标点 
O6 texts = ["join(c for c in x if c not in 0123456789) for x in texts] # 移 除数 字 
07 texts =[' join([word for word in x.split() if word not in (stops)]) for x in texts]# 移 除 停 用 词 
O8 texts = ['' join(x.split()) for x in texts] # 移 除 空白 字符 

09  return(texts) 

3. 构建 词典 


构建 词典 包括 创建 词汇 表 和 将 输入 语句 转换 为 单词 索引 列表 。 
对 于 词汇 表 的 创建 ， 针 对 每 个 单词 创建 对 应 的 索引 值 。 为 了 提升 效率 ， 将 词 频 不 高 的 
单词 都 标记 为 RARE， 作 为 未 知 单词 。 具 体 实现 如 下 : 


01 def build dictionary(sentences, vocabulary size): 

02 split sentences = [s.split() for s in sentences] 

O3 words = [x for sublist in split sentences for x in sublist] 

04 count=[[RARE' -1]] 

05  count.extend(collections.Counter(words).most common(vocabulary. size- 1)) 
06 word dict = () 

07 for word, word count in count: 

08 word dict[word] = len(word. dict) 

09 return(word dict) 


将 语句 转 为 单词 索引 值 的 过 程 就 是 查询 词汇 表 的 过 程 ， 具 体 实现 如 下 : 


01 deftext to numbers(sentences, word dict): 


02 data=[] 

03 for sentence in sentences: 

04 sentence data = [] 

05 for word in sentence.split(): 

06 if word in word. dict: 

07 word ix = word dict[word] 

08 else: 

09 word ix-0 

10 sentence data.append(word ix) 
11 data.append(sentence data) 


12  retum(data) 


构建 词典 就 是 创建 词汇 表 和 完成 语句 转换 ， 具 体 实现 如 下 : 


01 word dictionary = text_helpers.build_dictionary(texts, vocabulary size) 
02 word dictionary rev = dict(zip(word dictionary.values(), word dictionary.keys())) 
03 text data = text helpers.text to numbers(texts, word dictionary) 


4. 创建 词 向 量 训练 模型 
CBOW 嵌 套 模型 将 上 下 文 窗口 内 的 单词 嵌 套 放 在 一 起 ， 预 测 目标 单词 的 拒 套 。 词 向 量 
训练 模型 使 用 最 简单 的 神经 网 络 模型 ， 输 入 值 采 用 独 热 编 码 方式 ， 经 过 一 个 隐 层 ， 然 后 进 
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行 输出 。 对 于 损失 函数 的 选取 ， 由 于 结果 的 稀疏 性 太 强 ， 导 致 常用 的 softmax 函 数 存 在 收 
敛 问题 ， 因 此 改 用 NCE 损 失 函 数 。 具 体 实 现 如 下 : 


01 x inputs = tf.placeholder(tf.int32, shape-[batch size, 2^window. size]) 
02 y target = tf.placeholder(tf.int32, shape-[batch size, 1]) 
03 valid dataset = tf.constant(valid examples, dtype-tf.int32) 
04 embeddings = tf. Variable(tf.random uniform([vocabulary. size, embedding. size], -1.0, 1.0)) 
05 nce weights = tf. Variable(tf.truncated normal([vocabulary. size, embedding. size], 
Stddev-1.0 / np.sqrt(embedding size))) 
06 nce biases = tf.Variable(tf.zeros([vocabulary size])) 
07 embed = tf.zeros([batch size, embedding size]) 
08 for element in range(2*window. size): 
09 embed += tf.nn.embedding lookup(embeddings, x inputs[:, element]) 
10 loss = tf.reduce mean(tf.nn.nce loss(weights-nce weights, 
biases-nce biases, 
labelszy target, 
inputszembed, 
num sampled-num sampled, 
num classes-vocabulary. size)) 
11 optimizer = tf.train.GradientDescentOptimizer(learning, rate = model learning. rate).minimize(loss) 
12 norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, keep. dims-True)) 
13 normalized embeddings = embeddings / norm 
14 valid embeddings = tf.nn.embedding, lookup(normalized embeddings, valid dataset) 
15 similarity = tf.matmul(valid embeddings, normalized embeddings, transpose b-True) 
16 saver = tf.train.Saver(('embeddings": embeddings]) 


5. 训练 词 向 量 模型 


使 用 数据 集 进 行 训练 ， 并 且 保存 CBOW 堪 套 模 型 的 单词 字典 以 及 嵌 套 变量 。 具 体 实 现 
如 下 : 


01 loss vec 7 [] 

02 loss x vec- [] 

03 for i in range(generations): 

O4 batch inputs, batch labels = text helpers.generate batch data(text data, batch. size, 
window. size,method-'cbow) 

05 feed dict- [x inputs: batch inputs, y target: batch labels) 

06  sess.run(optimizer, feed dict-feed dict) 


07  if(i*1)96 print loss every == 0: 3HETEDIRAC 
08 loss val = sess.run(loss, feed dict-feed dict) 

09 loss vec.append(loss val) 

10 loss x vec.append(i*1) 

11 print('Loss at step {} : (J.format(i-1,loss val)) 

12  if(i*1)96 print valid every == 0: 3HTEDIRSBIS] 
13 Sim = sess.run(similarity, feed dict-feed dict) 

14 for j in range(len(valid words)): 

15 valid word = word dictionary rev[valid examples[j]] 

16 top k =5 # number of nearest neighbors 


jf 
18 
19 
20 
21 
22 
23 
24 
25 
26 


27 
28 


nearest = (-sim[j, :]).argsort()[1:top k-*-1] 
log. str = "Nearest to ():".format(valid word) 
for k in range(top. k): 
close word = word dictionary rev[nearest[k]] 
log. str = '[) 0, .-format(log str, close word) 
print(log. str) 
if (i + 1) % save embeddings every == 0: SRTECBOWEREHSRS 
with open(os.path.join(data folder name, 'movie vocab.pkl", 'wb') as f: 
pickle.dump(word dictionary, f) 
model checkpoint path = os.path.join(os.getcwa(), data folder name, 
'cbow movie embeddings.ckpt") 
Save path = saver.save(sess, model checkpoint path) 
print(Model saved in file: (J.format(save path)) 


运行 上 述 代码 ， 对 CBOW 顽 套 模 型 进行 训练 的 损失 值 、 目 标 词 的 相 邻 词 以 及 保存 
CBOW 嵌 套 模 型 的 相关 信息 如 图 8.5 所 示 。 


Loss at step 49100 : 2.1291556358337402 
Loss at step 49200 : 2.372246503829956 


Loss at step 49300 : 2.1351306438446045 
Loss at step 49400 : 2.2577250003814697 
Loss at step 49500 : 2.267059087753296 
Loss at step 49600 : 2.053145408630371 
Loss at step 49700 : 2.056553602218628 
Loss at step 49800 : 2.5869126319885254 
Loss at step 49900 : 2.242506742477417 
Loss at step 50000 : 2.3883185386657715 


Nearest to love: scifi, deftly, told, today, overwrought, 
Nearest to hate: admire, ability, recommend, supporting, onto, 
Nearest to happy: guns, damned, thing, step, derivative, 
Nearest to sad: accomplished, equal, heart, endearing, huge, 
Nearest to man: tears, liked, open, nice, tiresome, 

Nearest to woman: flashy, assured, believe, damage, comedies, 
Model saved in file: D:\works\Tensorflow\@8\Embeddings\temp 
NVcbow movie embeddings.ckpt 


图 8.5 CBOW 词 向 量 训练 过 程 


我 们 已 经 通过 以 上 几 个 步 又 实现 了 对 影评 数据 集 的 CBOW 霸 套 模 型 的 构建 ， 接 下 来 
将 构建 影评 分 类 模型 。 


| 8.3.2 构建 影 评分 类 模型 


对 


于 影评 分 类 模型 的 构建 ， 使 用 8.3.1 节 训练 的 CBOW 嵌 套 模型 来 进行 单词 的 映射 。 在 


算法 模型 的 选择 上 ， 由 于 只 需要 判断 影评 结论 是 正面 评价 还 是 负面 评价 ， 因 此 选择 最 简单 


的 逻辑 


Eg 


归 神 经 网 络 模型 。 
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1. 加 载 数据 


对 于 影评 数据 集中 的 正面 评价 数据 和 负面 评价 数据 ， 随 机 地 区 别 为 训练 数据 集 和 测试 
数据 集 ， 以 此 进行 训练 和 验证 。 


01 stops = stopwords.words('english' ) # 停 用 词 

02 data folder name = 'temp' 

03 texts, target text. helpers.load movie data() # 获 取 影评 数据 
04 texts = text helpers.normalize text(texts, stops) # 归 一 化 文本 


05 target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2] 

06 texts = [x for x in texts if len(x.split()) > 2] 

07 # 获 取 训 练 、 测 试用 的 文本 和 标识 

08 train_indices = np.random.choice(len(target), round(0.8*len(target)), replace=False) 

09 test indices = np.array(list(set(range(len(target))) - set(train_indices))) 

10 texts train = [x for ix, x in enumerate(texts) if ix in train indices] 

11 texts test = [x for ix, x in enumerate(texts) if ix in test indices] 

12 target train = np.array([x for ix, x in enumerate(target) if ix in train. indices]) 

13 target. test = np.array([x for ix, x in enumerate(target) if ix in test. indices]) 

14 # 文 本 根据 CBOW 字 典 转换 为 编码 

15 word dictionary = pickle.load(open('temp/movie vocab.pk!', rb)) 

16 text data train = np.array(text helpers.text to numbers(texts train, word dictionary)) 

17 text data test = np.array(text helpers.text to numbers(texts test, word dictionary)) 

18 # 标 准 化 输入 ， 输 入 长 度 统一 为 max_words 

19 text data train = np.array([x[0:max_words] for x in [y+[0]*max_words for y in text_data_train]]) 
20 text data test = np.array([x[0:max. words] for x in [y*[0]*max. words for y in text data test]]) 


2. 构建 模型 


神经 网 络 模型 采用 最 简单 的 模型 ， 只 包括 一 个 输入 层 、 一 个 隐 层 和 一 个 输出 层 。 损 失 
函数 选择 逻辑 回归 中 最 常用 的 sigmoid 方 式 。 


01 embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding. size], -1.0, 1.0)) 

02 A=tf.Variable(tf.random_normal(shape=[embedding_size, 1])) 

03 b= tf. Variable(tf.random normal(shapez[1, 1])) 

04 x data = tf.placeholder(shape-[None, max words], dtype-tf.int32) 

05 y. target = tf.placeholder(shape-[None, 1], dtype-tf.float32) 

06 embed = tf.nn.embedding lookup(embeddings, x data) 

07 embed avg = tf.reduce mean(embed, 1) 

08 model output = tf.add(tf.matmul(embed avg, A), b) 

09 loss = tf.reduce mean(tf.nn.sigmoid cross entropy with logits(logitszmodel output, 
labels-y target) 

10 my. opt = tf.train.AdagradOptimizer(0.005) 

11 train step = my. opt.minimize(loss) 


对 于 训练 过 程 中 的 评估 ， 采 取 输 出 训练 集 和 测试 集 的 准确 率 的 方式 ， 准 确 率 的 实现 
如 下 


01 prediction = tf.round(tf.sigmoid(model output)) 
02 predictions correct  tf.cast(tf.equal(prediction, y target), tf.float32) 
03 accuracy = tf.reduce mean(predictions correct) 


[8.3.3 REE 


XPT Rn 4p 288570 fO VILE, f FH BU TRE DRE LC CBO W c 26 E, oe yl HR UE TT 
训练 ， 并 且 每 迭代 100 次 保存 影评 分 类 模型 ， 和 迭代 500 次 后 打印 当前 的 准确 率 。 具 体 实 


现 如 下 : 

01 4JDnSECBOWERESERS 

02 model checkpoint path = os.path.join('temp', 'cbow movie embeddings.ckpt") 

03 saver = tf.train.Saver(('embeddings": embeddings]) 

04 saver.restore(sess, model checkpoint path) 

05 训练 模型 

06 train loss = [) 者 | 练 集 损失 值 

07 test loss - [] # 测 试 集 损失 值 

08 train. acc - [] 2s Ed 

09 test acc - [] # 测 试 集 准确 率 

10 i data - [] 

11 foriin range(10000): 

12 rand index np.random.choice(text data train.shape[0], size-batch. size) 

13 rand x-text data train[rand index] 

14 rand y-np.transpose([target train[rand index]]) 

15  sess.un(train step, feed dict-[x data: rand x, y target: rand y]) 

16 HARIR, RFE 

17  if(i- 1)96 100 == 0: 

18 i data.append(i + 1) 

19 train loss temp = sess.run(loss, feed dict-(x data: rand x, y. target: rand y]) 

20 train loss.append(train loss temp) 

21 test loss temp = sess.run(loss, feed dict-(x data: text data test, y target: 
np.transpose([target test]))) 

22 test loss.append(test loss temp) 

23 train acc temp = sess.run(accuracy, feed dict-(x data: rand. x, y. target: rand y]) 

24 train acc.append(train acc temp) 

25 test acc temp = sess.run(accuracy, feed dict-(x data:text data test, y target: 
np.transpose([target test]))) 

26 test acc.append(test acc temp) 

27  if(i*1)96500--0: 

28 acc and loss = [i + 1, train loss temp, test loss temp, train acc temp, test acc temp] 

29 acc and loss = [np.round(x,2) for x in acc and loss] 

30 print('Generation & (). Train Loss (Test Loss): (:.2f) ({:-2f}). Train Acc (Test Acc): (:.2f) 


([:.20)'.format(*acc and loss)) 


运行 上 述 代码 ， 进 行 影评 分 类 模型 的 训练 ， 训 练 过 程 如 图 8.6 所 示 。 从 训练 过 程 可 以 
看 出 ， 其 实 最 简单 的 二 类 逻辑 回归 神经 网 络 模型 效果 并 不 理想 。 
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Ru 


Starting Model Training 

Generation # 500. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 0.49 (0.49) 
Generation # 1000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.47 (0.49) 
Generation # 1500. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.51 (0.49) 
Generation # 2000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.57 (0.49) 
Generation # 2500. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.41 (0.49) 
Generation # 3000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.53 (0.49) 
Generation # 3500. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.55 (0.49) 
Generation # 4000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.43 (0.49) 
Generation # 4500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.52 (0.49) 
Generation # 5000. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.46 (0.50) 
Generation # 5500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.41 (0.50) 
Generation # 6000. Train Loss (Test Loss): 0.73 (0.70). Train Acc (Test Acc): 0.41 (0.50) 
Generation # 6500. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.57 (0.49) 
Generation # 7000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.47 (0.50) 
Generation # 7500. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.52 (0.50) 
Generation # 8000. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.40 (0.50) 
Generation # 8500. Train Loss (Test Loss): 0.72 (0.70). Train Acc (Test Acc): 0.32 (0.50) 
Generation # 9000. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.50 (0.51) 
Generation # 9500. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 0.53 (0.51) 
Generation # 10000. Train Loss (Test Loss): 0.71 (0.70). Train Acc (Test Acc): 0.41 (0.51) 


图 8.6 ”影评 分 类 模型 的 训练 过 程 


通过 本 节 的 训练 ， 读 者 应 掌握 了 CBOW 顽 套 模 型 的 实现 ， 能 够 使 用 该 模型 对 影评 内 容 
进行 情感 分 析 ， 判 别 电影 的 正面 评价 和 负面 评价 。 


EZI 智能 聊天 机 器 人 T 


自然 语言 文本 处 理 的 另 一 个 重要 应 用 方向 就 是 自然 语言 的 人 机 交互 。 自 然 语 言 的 人 机 
交互 主要 应 用 于 两 方面 : 一 方面 应 用 于 与 用 户 的 对 话 ， 为 用 户 提供 对 应 的 服务 ， 例 如 客服 
机 器 人 人、 苹果 的 Siri， 另 一 方面 应 用 于 智能 硬件 ， 例 如 应 用 于 智能 家 居 领 域 ， 通 过 用 户 与 
家 居 管 家 的 对 话 ， 对 家 居 的 窗帘 、 灯 光 等 家 居 物 品 进行 控制 。 

在 自然 语言 的 人 机 交互 发 展 过 程 中 ， 主 要 经 历 了 如 下 三 个 阶段 : 

第 一 阶段 ， 选 用 的 技术 是 特征 工程 ， 通 过 大 量 的 if 和 else 进 行 逻辑 判断 。 

第 二 阶段 ， 选 用 的 技术 是 检索 库 ， 即 建立 问题 与 答案 的 检索 库 ， 当 给 定 一 个 问题 时 ， 
从 检索 库 中 找到 最 匹配 的 答案 。 

第 三 阶段 ， 选 用 的 技术 是 深度 学 习 。 通 过 对 语 料 的 大 量 训练 ， 可 以 根据 输入 ， 生 成 对 
应 的 输出 。 目 前 ， 智 能 聊天 机 器 人 正在 从 检索 库 逐 步 发 展 到 深度 学 习 。 

对 于 深度 学 习 的 算法 模型 ， 最 流行 的 是 Attention 机 制 的 Seq2Seq 模 型 。 


8.4.1] Attention 机 制 的 Seq2Seq 模 型 


1. Seq2Seq 模 型 


Seq2Seq(Sequence to Sequence) 模 型 是 一 种 翻译 模型 ， 它 将 一 个 序列 翻译 成 男 一 个 序 
列 ， 被 广泛 应 用 于 序列 学 习 中 。 例 如 机 器 翻译 ， 就 是 输入 一 个 自然 语言 序列 X， 输 出 对 应 
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的 自然 语言 序列 也 可 以 用 于 英语 中 文 翻译 、 英 语法 语 翻译 等 。 例 如 聊天 机 器 人 ， 就 是 输 
入 一 个 人 类 的 自然 语言 序列 X， 计 算 机 根据 模型 生成 对 答 的 自然 语言 序列 Y。 再 如 看 图 说 
话 ， 就 是 输入 一 个 图 片 序列 X， 生 成 自然 语言 的 图 片 描 述 序列 了。 

Seq2Seq 模 型 在 2014 年 由 谷歌 提出 ， 其 主要 思路 是 使 用 一 个 循环 神经 网 络 模型 作为 编 
码 器 ， 使 用 另 一 个 循环 神经 网 络 模型 作为 解码 器 ， 通 过 编码 输入 、 解 码 输出 两 个 环节 实现 
从 一 个 序列 变换 到 另 一 个 序列 ， 模 型 框架 如 图 8.7 所 示 。 


图 8.7 ”Seq2Seq 模 型 框架 


对 于 输入 的 序列 X， 通 过 编码 器 进行 编码 生成 中 间 语 义 编码 C， 然 后 解码 器 对 中 间 语 义 
编码 C 进 行 解码 ， 在 每 个 时 刻 都 生成 对 应 的 y,、y,、yy, 从 而 生成 对 应 的 输出 序列 7。 
编码 就 是 对 各 类 长 度 不 同 的 输入 序列 X 使 用 编码 器 编译 为 向 量 C 的 过 程 。 其 中 ， 编 码 
器 一 般 使 用 循环 神经 网 络 模型 (RNN) 来 构建 ， 编 译 生成 的 向 量 C 通 常 也 就 是 循环 神经 网 
络 模型 中 的 最 后 一 个 隐 节 点 4， 或 是 多 个 隐 节 点 的 加 权 总 和 。 
he = f (xt ,hei) 
€ = g (fha, ~, hup) 
解码 就 是 将 向 量 C 通 过 一 个 RNN 解 码 器 进行 解 译 ， 从 而 获取 对 应 概率 最 大 的 那个 词汇 
的 过 程 。 


St = fna ,st-1C) 
POLY <t ,X) = gye-1 so C) 

从 计算 公式 中 可 以 看 出 ，Seq2Seq 模 型 与 自身 上 一 时 刻 的 状态 有 关 ， 随 着 输入 序列 的 
不 断 增 长 ， 这 种 对 时 间 序 列 的 计算 效果 会 表现 得 越 来 越 差 。 因 此 ， 在 基础 的 Seq2Seq 模 型 
中 引入 了 Attention 机 制 。 

2. Attention 机 制 

Attention 机 制 源 于 认 知 心理 学 ， 是 指 和 人 们 在 做 一 件 事情 时 ， 会 专注 地 做 这 件 事情 而 忽 
略 周围 的 其 他 事情 。 通 过 在 基础 的 Seq2Seq 模 型 中 引入 Attention 机 制 ， 极 大 地 提升 了 序列 
学 习 任 务 的 准确 率 。 

加 入 Attention 机 制 后 ， 会 对 输入 的 上 下 文 进行 一 次 基于 权重 的 筛选 。 通 过 这 种 加 权 方 
式 ， 可 以 让 神经 网 络 能 够 更 好 地 利用 语言 序列 在 时 序 上 的 结构 关系 。Attention 机 制 主要 从 
两 方面 来 提高 Seq2Seq 模 型 的 效率 : 一 是 结构 化 地 选取 输入 的 子 集 ， 降 低 数 据 维度 ， 从 而 
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减轻 处 理 高 维 输入 数据 的 计算 负担 ， 二 是 让 任务 处 理 更 专注 于 找到 输入 数据 中 与 当前 输出 
最 相关 的 有 用 信息 ， 从 而 提高 输出 的 质量 。 

在 实际 实现 过 程 中 可 以 在 编码 段 中 加 入 Attention 模 型 ， 对 源 数据 序列 进行 数据 加 权 变 
换 ， 也 可 以 在 解码 端 引 入 Attention 模 型 ， 对 目标 数据 进行 加 权 变 换 ， 从 而 有 效 提高 输出 序 
列 对 输入 序列 的 准确 应 答 效果 。 


3. TensorFlow 方 法 


TensorFlow 针 对 Seq2Seq 模 型 提供 了 相应 的 方法 ， 在 tf.nn.seq2seq 文 件 中 ， 主 要 包括 以 
下 5 个 : 


basic rmn. seq2seq(encoder. inputs, decoder. inputs, cell) 
tied mn. seq2seq(encoder. inputs, decoder. inputs, cell) 
embedding rnn seq2sea(encoder. inputs, decoder. inputs, cell, num encoder. symbols, 
num decoder symbols,output projectionz None, feed previous-False) 
embedding tied rnn sea2sea(encoder. inputs, decoder. inputs, cell, num encoder. symbols, 
num. decoder. symbols,output projection-None, feed previous-False) 
embedding attention seq2seq(encoder. inputs, decoder. inputs, cell, num. encoder. symbols, 
num. decoder symbols,embedding size,num heads-1,output projectionzNone, 
feed previous-False, dtype-None, scope-None, initial state attention-False) 


basic_rnn_seq2seq() 是 最 简单 的 版 本 ， 输 入 和 输出 都 是 嵌入 形式 ， 并 且 将 编码 的 最 后 
一 步 的 状态 作为 解码 器 的 初始 状态 。 编 码 器 和 解码 器 使 用 相同 的 RNN cell， 但 不 共享 权 值 
参数 。 

tied_rnn_seq2seq() 是 basic_rnn_seq2seq() 的 变 体 ， 主 要 区 别 在 于 编码 器 和 解码 器 不 仅 使 
用 相同 的 RNN cell， 而 且 共享 权 值 参数 。 

embedding_rnn_seq2seq() 在 basic_rnn_seq2seq() 的 基础 上 对 输入 和 输出 的 编码 方式 进行 
了 修改 ， 在 编码 方式 上 改 为 id 形式 。 同 时 需要 在 方法 内 部 创建 分 别 用 于 编码 器 和 解码 器 的 
词 向 量 和 矩阵 。 编 码 器 和 解码 器 使 用 相同 的 DNN cell， 但 不 共享 权 值 参数 。 

embedding_tied_rnn_seq2seq() 与 embedding_rnn_seq2seq() 类 似 ， 只 是 编码 器 和 解码 器 
使 用 相同 的 RNN cell， 而 且 共 享 权 值 参数 。 

embedding_attention_seq2seq() 在 embedding_rnn_seq2seq() 的 基础 上 增加 了 Attention 机 
制 ， 也 是 我 们 主要 使 用 的 方法 ， 参 数 如 下 : 


embedding_attention_seq2seq(encoder_inputs, 
decoder_inputs, 
cell, 
Num_encoder_symbols, 
num decoder symbols, 
embedding size, 
num heads-1, 
output projectionz None, 
feed previous-False, 
dtype-None, 
scope-None, 
initial state attention-False): 
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O “参数 encoder inputs 

表示 编码 器 的 输入 ， 是 int32 型 张 量 列表 。 

O 参数 decoder inputs 

表示 解码 器 的 输入 ， 是 int32 型 张 量 列表 。 

口 参数 cell 

表示 循环 神经 网 络 RNN_Cell 的 实例 。 

Cj 参数 num_encoder_symbols 与 num decoder symbols 

分 别 是 编码 和 解码 的 符号 数 。 

O "embedding size 

表示 词 向 量 的 维度 。 

O “参数 num_heads 

表示 Attention 的 抽 头 数量 ， 一 个 抽 头 算 一 种 加 权 求 和 方式 。 

Cj “参数 output projection 

表示 在 将 解码 器 的 输出 向 量 投影 到 词 表 空间 时 ， 用 到 的 权 值 矩 阵 和 偏 置 项 (所 ，B)。 
其 中 ， 权 值 矩 阵 矿 的 维度 是 [output_size，num_decoder_symbols]。 偏 置 项 下 的 维度 是 [rnum__ 
decoder_symbols]。 若 此 参数 存在 且 feed_previous=True， 就 把 上 一 个 解码 器 的 输出 乘 以 
,再 加 上 B 作 为 下 一 个 解码 器 的 输入 。 

口 参数 feed_previous 

若 为 True， 则 只 有 第 一 个 解码 器 的 输入 有 用 ， 所 有 的 解码 器 输入 都 依赖 于 上 一 步 
的 输出 。 

O 参数 initial_state_attention 

默认 为 False， 初 始 的 Attention 是 零 ; 若 为 True， 则 初始 的 Attention 是 设置 值 。 


EXE) sss 


对 于 智能 聊天 机 器 人 的 实现 ， 我 们 采用 带 Attention 机 制 的 Seq2Seq 模 型 。 深 度 学 习 训 
练 的 第 一 步 就 是 训练 语 料 的 选择 和 处 理 。 

在 数据 集 上 ， 使 用 公开 的 康 奈 尔 大 学 的 电影 对 白 语料库 (Cornell Movie-Dialogs 
Corpus)。 这 是 一 个 从 电影 数据 中 生成 的 电影 对 白 语 料 库 ， 包 含 大 约 600 部 电影 对 白 ， 并 
且 语 料 中 含有 电影 名 、 角 色 和 IMDB 评分 等 许多 信息 。 该 语料库 中 的 原始 文件 包含 以 下 
A 


movie titles metadata.txt， 包 含 每 部 电影 的 名 称 信息 。 
movie_characters_metadata.txt， 包 含 每 部 电影 的 角色 信息 。 
movie_lines.txt， 包 含 每 个 对 话 表 达 的 实际 文本 。 
movie_conversations.txt， 包 含 对 话 的 结构 ， 用 语句 id 表 示 。 
raw_script_urls.txt， 包 含 原始 来 源 的 URL。 


uauau 
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在 movie lines.txt 的 实际 对 白文 本 中 ， 包 括 编号 、 角 色 id、 电 影 id、 角 色 名 称 以 及 对 和 白 
内 容 ， 彼 此 之 间 使 用 “ +++$+++ ”进行 分 隔 ， 示 例如 下 : 

L1045 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ They do not! L1044 +++$+++ u2 
+++$+++ MO +++$+++ CAMERON +++$+++ They do to! L985 +++$+++ UO 4$ MO +++$+++ 
BIANCA +++$+++ | hope so. L984 +++$+++ U2 +++$+++ MO +++$+++ CAMERON +++$+++ She okay? 
L925 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ Let's go. 


对 于 训练 数据 的 处 理 ， 主 要 包括 原始 数据 的 清洗 、 生 成 词汇 表 和 生成 词 编码 三 个 
步骤 '。 

1. 原始 数据 的 清洗 

在 智能 聊天 机 器 人 中 ， 我 们 关注 的 是 从 电影 对 白 内 容 中 学 习 获取 对 话 的 能 力 。 先 把 数 
据 由 对 白 形式 整理 为 聊天 的 “ 问 ” 和 “ 答 ” 方 式 ， 分 别 生成 训练 集 和 测试 集 的 问答 文件 ， 

train.enc 

train.dec 

test.enc 

test.dec 

2. 生成 词汇 表 

词汇 表 的 生成 就 是 从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 。 为 
了 避免 低频 词 的 干扰 ， 同 时 减少 模型 参数 ， 我 们 只 保留 前 20 000 个 高 频 词 来 生成 词典 。 在 
实现 过 程 中 ， 增 加 了 Seq2Seq 模 型 中 常用 的 特殊 标记 : 

口 _PAD， 用 来 填充 序列 ， 保 证 每 批 次 的 序列 有 相同 的 长 度 。 

O _GO， 标 记 对 话 开始 。 

O _EOS， 标 记 对 话 结束 。 

O _UNK， 标 记 未 出 现在 词汇 表 中 的 字符 。 

对 于 问 句 文件 和 回答 文件 ， 生 成 不 同 的 词汇 表 : 

vocab20000.enc 

vocab20000.dec 

3. 生成 词 编码 

将 问 句 和 管 句 中 的 单词 根据 词汇 表 编 码 为 对 应 的 词 编码 ， 并 保存 为 ds 文件 。 转 换 之 
后 生成 对 应 的 文件 : 


train.enc.ids20000 
train.dec.ids20000 
test.enc.ids20000 


构建 智能 聊天 机 器 人 模型 


对 于 训练 模型 的 构建 ， 使 用 目前 最 流行 的 带 Attention 机 制 的 Seq2Seq 模 型 。 在 Seq2Seq 
模型 中 ， 选 择 LSTM 循 环 神经 网 络 或 扩展 层次 更 深 的 GRU 训 练 神经 网 络 。 对 于 训练 模型 的 
1 ”代码 请 参考 https://github.com/suriyadeepan/easy_seq2seq。 
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生成 ， 具 体 实现 如 下 : 


01 def__init_ (self, source vocab size, target vocab size, buckets, size, 
num layers, max gradient norm, batch size, learning rate, 
learning. rate decay. factor, use Istm-False, 
num samples-512, forward only-False): 


02  selfsource vocab size = source vocab size # 问 句 词汇 表 大 小 
03  selftarget vocab size = target vocab size # 答 句 词汇 表 大 小 
04 self.buckets = buckets # 指 定 最 大 输入 、 输 出 长 度 
05  selfbatch size = batch size HRAD 
06 selfleaming_rate = tf.Variable(float(learning_rate), trainable=False) # 学 习 率 
07  selflearning rate decay. op = selflearning_rate.assign( 
self.learning rate * learning rate decay. factor) HARFE 


08  self.global step = tf.Variable(0, trainable=False) 
09 output projection = None 
10  softmax loss function = None 
11 # 样 本 量 小 于 词汇 表 ， 采 用 抽样 Softmax 
12  ifnum samples > 0 and num samples < self.target_vocab_size: 
13 w 7 tf.get_variable("proj_w", [size, self.target vocab size]) 
14 w t tf.transpose(w) 
15 b = tf.get. variable("proj b", [self.target vocab size]) 
16 output projection = (w, b) 
17 # 定 义 softmax 损 失 值 
18 def sampled loss(inputs, labels): 
19 labels = tf.reshape(labels, [-1, 1]) 
20 return tf.nn.sampled. softmax loss(w. t, b, inputs, labels, num samples, 
self.target vocab size) 
21 Softmax loss function = sampled loss 
22 # 构 建 RNN 的 单元 
23 single cell- tf.nn.rmn cell.GRUCell(size) 
24  ifuse lstm: 
25 Single cell tf.nn.rmnn cell.BasicLSTMCell(size) 
26  cell-single cell 
27  cell-tf.nn.mn cell.DropoutWrapper(cell, output keep prob-0.5) 
28  ifnum layers > 1: HDSRISEU SCA A 
29 cell = tf.nn.mn. cell.MultiRNNCell([single cell] * num layers) 
30 # 定 义 统一 的 Attention 模 型 函数 
31  defseq2seq f(encoder inputs, decoder_inputs, do decode): 
32 return tf.nn.seq2seq.embedding attention seq2sea( 
encoder. inputs, decoder. inputs, cell, 
num encoder symbols-source vocab size, 
num decoder symbols-target vocab size, 
embedding. size-size, 
output projection-output projection, 
feed previous-do decode) 


在 完成 模型 所 需 函 数 的 定义 后 ， 再 处 理 模型 中 的 数据 ， 具 体 实现 如 下 : 


01 # 填 充 输入 数据 

02  self.encoder inputs = [] 
03  self.decoder inputs - [] 
04  selftarget weights = [] 
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05 
06 


07 
08 


09 


10 
$1 


12 


13 
14 


15 
16 
17 


18 
19 


21 


33 


for i in xrange(buckets[-1][0]): # Last bucket is the biggest one. 
self.encoder. inputs.append(tf.placeholder(tf.int32, shape-[None], 
name-"encoder(0)" format(i))) 
for i in xrange(buckets[-1][1] + 1): 
self.decoder_inputs.append(tf.placeholder(tf.int32, shape=[None], 
name="decoder{0}".format(i))) 
self.target weights.append(tf.placeholder(tf.float32, shape-[None], 
namez"weight(0)".format(i))) 
# targets 值 是 解码 器 偏 移 
targets = [self.decoder_inputs[i+ 1] 
foriin xrange(len(self.decoder inputs) - 1)] 
HERRER 
if forward_only: 
self.outputs, self.losses = tf.nn.seq2seq.model_with_buckets( 
self.encoder_inputs, self.decoder_inputs, targets, 
self.target_weights, buckets, lambda x, y: seq2seq_f(x, y, True), 
softmax_loss_function=softmax_loss_function) 
if output_projection is not None: 
for b in xrange(len(buckets)): 
self.outputs[b] = [ 
tf.matmul(output, output_projection[0]) + output. projection[1] 
for output in self.outputs[b] ] 
else: 
Self.outputs, self.losses = tf.nn.seg2seq.model with: buckets( 
self.encoder. inputs, self.decoder inputs, targets, 
self.target weights, buckets, 
lambda x, y: seg2seq f(x, y, False), 
softmax loss function-softmax loss function) 
# 更 新 梯度 
params = tf.trainable variables() 
if not forward. only: 
self.gradient norms = [] 
self.updates - [] 
opt - tf.train.AdamOptimizer() 
for b in xrange(len(buckets)): 
gradients - tf.gradients(self.losses[b], params) 
clipped gradients, norm = tf.clip by. global norm(gradients, 
max. gradient. norm) 
self.gradient norms.append(norm) 
self.updates.append(opt.apply gradients( 
zip(clipped gradients, params), global step-self.global step)) 
# 保 存 模型 
self.saver = tf.train.Saver(tf.global variables()) 


模型 运行 时 ， 每 一 步 的 具体 实现 如 下 : 


01 


02 
03 


def step(self, session, encoder. inputs, decoder. inputs, target weights, 
bucket. id, forward only): 
encoder size, decoder size = self.buckets[bucket id] 
iflen(encoder. inputs) != encoder. size: 


04 raise ValueError("Encoder length must be equal to the one in bucket," 
" 96d != 96d." 96 (len(encoder. inputs), encoder. size)) 

05  iflen(decoder inputs) != decoder. size: 

06 raise ValueError("Decoder length must be equal to the one in bucket," 
" 96d != 96d." 96 (len(decoder inputs), decoder. size)) 

07  iflen(target weights) != decoder. size: 

08 raise ValueError("Weights length must be equal to the one in bucket," 
" 96d != 96d." 96 (len(target weights), decoder. size)) 

09 # 对 输入 值 进行 填充 

10 input feed = () 

11  forlin xrange(encoder size): 

12 input. feed[self.encoder. inputs[[].name] = encoder. inputs[I] 

13  forlin xrange(decoder size): 

14 input feed[self.decoder inputs[I].name] = decoder. inputs[I] 

15 input. feed[self.target weights[I].name] = target weights([I] 

16 last target = self.decoder. inputs(decoder. size].name 

17 input feed[last target] = np.zeros([self.batch size], dtype-np.int32) 

18 #9 输出 值 进行 填充 

19 ifnotforward_only: 

20 output. feed = [self.updates[bucket id], self.gradient norms[bucket id], 

self.losses[bucket id]] 

21 else: 

22 output. feed = [self.losses[bucket id]] 

23 for | in xrange(decoder. size): 

24 output. feed.append(self.outputs[bucket. id](I]) 

25 outputs 7 session.run(output feed, input feed) 

26  ifnotforward only: 

27 return outputs[1], outputs[2], None 

28 else: 

29 return None, outputs[0], outputs[1:] 


训练 模型 


对 于 智能 聊天 机 器 人 模型 的 训练 ， 由 于 训练 时 间 较 长 ， 创 建 模型 时 ， 可 以 新 建 模型 ， 
也 可 以 加 载 保存 的 模型 。 有 具体 实现 如 下 : 


01 defcreate model(session, forward only): 

02 model = seg2seq model.Seq2SeqModel( gConfig['enc. vocab. size", 
gConfig('dec vocab size, buckets, gConfig['layer. size'], gConfig['num layers'], 
gConfig['max. gradient norm!, gConfig['batch size", gConfig[learning rate", 
gConfig['learning rate decay. factor], fonward only-forward only) 

O3 if'pretrained model in gConfig: 

04 model.saver.restore(session,gConfig[pretrained model']) 

05 return model 

06 ckpt= tf.train.get checkpoint state(gConfig[' working, directory']) 

07 ifckptand ckpt.model checkpoint path: 

08  print("Reading model parameters from 96s" 96 ckpt.model checkpoint path) 

O9  model.saver.restore(session, ckpt.model checkpoint path) 

10 else: 
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11  print("Created model with fresh parameters.") 
12  session.run(tf.global variables initializer()) 
13 retur model 


加 载 训练 模型 后 ， 对 数据 进行 分 批 训练 ， 并 保持 训练 过 程 。 具 体 实现 如 下 : 


01 def train(): 

02 HERSE 

03 print("Preparing data in %s" % gConfig[working_directory]) 

04 enc train, dec train, enc dev, dec dev, , -data utils.prepare custom data 
(gConfig[ working. directory'],gConfig[train. enc],gConfig[train dec, 
gConfig['test. enc'],gConfig['test dec],gConfigl'enc vocab size", 
gConfig/'dec vocab size']) 

05 config = tf.ConfigProto() 

06 config.gpu options.allocator type - 'BFC' 

07 fr) iom 

08 with tf.Session(config-config) as sess: 

09 # 创 建 模型 

10  print("Creating %d layers of %d units." % (gConfig['num_layers'], gConfig['layer_size')) 

11 model = create model(sess, False) 

12 # 读 取 数 所 

13 print ("Reading development and training data (limit: %d)." 

96 gConfig('max train data size']) 

14 dev set-read data(enc dev, dec dev) 

15 train set = read data(enc train, dec train, gConfig['max train data size) 

16 train bucket sizes = [len(train set[b]) for b in xrange(len( buckets))] 

17 train total size = float(sum(train bucket sizes)) 

18 train buckets scale = [sum(train bucket sizes[:i + 1]) / train total size 

foriin xrange(len(train bucket sizes))] 

19 # 开 始 训练 

20 step time, loss = 0.0, 0.0 

21 current step =0 

22 previous losses - [] 

23 while True: 

24 random number. 01 = np.random.random_sample()# 生 成 随机 数 ， 用 于 bucket_id 

25 bucket id = min([i for i in xrange(len(train buckets scale)) 

iftrain buckets scale[i] > random number. 01]) 

25 #j 进 行 一 次 训练 

26 start time = time.time() 

27 encoder. inputs, decoder inputs, target weights = model.get batch( 

train set, bucket id) 

28 .,Step loss, = model.step(sess, encoder inputs, decoder inputs, 

target weights, bucket id, False) 

29 Step time += (time.time() - start time) / gConfig['steps per. checkpoint] 

30 loss += step loss / gConfigl'steps per. checkpoint] 

31 current step *- 1 

32 # 保 持 检查 点 ， 打 印 数据 

33 if current. step % gConfig['steps_per_checkpoint'] == 0: 

34 perplexity = math.exp(loss) if loss < 300 else float('inf) 

35 print ("global step 96d learning rate 96.4f step-time %.2f perplexity " 

"96.2f" % (model.global step.eval(), model.learning. rate.eval(), 
Step time, perplexity)) 
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37 if len(previous losses) > 2 and loss > max(previous losses[-3:]): 

38 sess.run(model.learning rate decay op) 

39 previous losses.append(loss) 

40 # 保 持 检查 点 

41 checkpoint path = os.path.join(gConfig[working_directory], "seq2seq.ckpt 
42 model.saver.save(sess, checkpoint path, global_step=model.global_step) 


43 Step time, loss = 0.0, 0.0 
44 HHTEDIBXHRR. 
45 for bucket id in xrange(len(  buckets)): 


46 iflen(dev set[bucket id]) == 0: 

47 print(" eval: empty bucket 96d" 96 (bucket id)) 

48 continue 

49 encoder. inputs, decoder inputs, target weights = model.get batch( 
dev. set, bucket id) 

50 ..,eval loss, = model.step(sess, encoder. inputs, decoder. inputs, 

target weights, bucket id, True) 
61 eval ppx = math.exp(eval loss) if eval loss < 300 else float('inf) 
52 print(" eval: bucket 96d perplexity 96.2f" 96 (bucket. id, eval ppx)) 


53 Sys.stdout.flush() 


运行 以 上 代码 ， 对 智能 聊天 机 器 人 模型 进行 训练 。 由 于 数据 量 以 及 模型 的 复杂 性 ， 训 
练 时 间 需 要 几 个 小 时 ， 建 议 使 用 GPU 进行 训练 。 


EXE sess 


完成 智能 聊天 机 器 人 模型 的 训练 后 ， 使 用 训练 获取 的 模型 进行 简单 的 人 机 对 话 ， 评 估 
训练 效果 ， 具 体 实现 如 下 : 


01 def decode(): 

02 with tf.Session() as sess: 

03 # 创 建 模型 

04 model= create model(sess, True) 

05  modelbatch size = 1 # 一 问 一 答 ， 每 次 解析 一 句 话 

06 snsxisi se 

07 enc vocab path = os.path.join(gConfig['working. directory'],"vocab96d.enc" 
96 gConfig'enc vocab size']) 

08 dec vocab path = os.path.join(gConfig[ working, directory], vocab96d.dec" 
96 gConfig('dec. vocab. size']) 

09 enc vocab, - data utils.initialize vocabulary(enc vocab path) 

10 .,Tev dec vocab = data utils.initialize vocabulary(dec vocab path) 

11 # 对 输入 数据 进行 解码 

12 sys.stdout.write(">") 

13 sys.stdout.flush() 

14 sentence - sys.stdin.readline() 

15 while sentence: 

16 token ids = data utils.sentence to token ids(tf.compat.as bytes(sentence), 

enc vocab) ”# 获 取 输 入 语句 的 ids 
17 bucket id = min([b for b in xrange(len( buckets)) 
18 if. buckets[b][0] > len(token. ids)]) 


47e | 
Sp 


Python+TensorFlow 机 器 学 习 实战 


19 encoder. inputs, decoder inputs, target weights = model.get batch( 
(bucket id: [(token ids, [])]), bucket. id) 

20 _, — Output logits = model.step(sess, encoder. inputs, decoder. inputs, 

target weights, bucket. id, True) 

21 outputs = [int(np.argmax(logit, axis-1)) for logit in output logits] 

22 ifdata utils.EOS ID in outputs: # 遇 到 EOS ， 则 结束 

23 outputs = outputs[:outputs.index(data_utils.EOS_ID)] 

24 # 输 出 语句 

25 print(" ".join([tf.compat.as_str(rev_dec_vocab[output]) for output in outputs])) 

26 print("» ", end-"") 

27 Sys.stdout.flush() 

28 sentence - sys.stdin.readline() 


在 完成 模型 的 训练 后 ， 运 行 代码 进行 测试 ， 结 果 如 下 : 


> Hello 

Hi 

> Are you a robot? 
Yes,you too 

> thank you 
thanks 


从 训练 结果 可 以 看 出 ， 对 于 短 句 ， 智 能 机 器 人 能 够 给 出 相应 的 回答 ， 而 对 于 稍微 复杂 
一 点 的 语句 ， 机 器 人 的 表现 不 尽 如 人 意 。 一 方面 模型 较为 简单 ， 只 是 注重 实现 智能 机 器 人 
的 原理 ， 另 一 方面 模型 的 训练 也 是 不 够 的 。 

在 实际 的 商业 应 用 中 ， 微 软 小 冰 、Google Now 等 都 表现 不 俗 。 对 于 国内 的 中 文智 能 机 
器 人 ， 除 了 BAT( 代 指 百度 、 阿 里 巴巴 和 腾讯 公司 ) 之 外 还 有 科大 讯 飞 、 竹 间 智 能 科技 等 都 
在 自然 语言 处 理 方面 有 着 不 错 的 实践 。 
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本 章 主 要 讲解 了 TensorFlow 在 自然 语言 文本 处 理 中 的 应 用 ， 分 别 以 学 写 唐诗 、 智 能 影 
评分 类 和 智能 聊天 机 器 人 为 例 ， 详 细 讲 解 了 数据 集 的 处 理 、 模 型 的 构建 、 训 练 和 评估 模型 
等 。 另 外 ， 对 自然 语言 文本 处 理 中 的 写作 学 习 、 文 本 情感 分 析 和 问答 系统 等 常见 应 用 也 进 
行 了 示例 讲解 。 
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语音 处 理 


虽然 在 前 一 章 中 ， 我 们 对 自然 语言 文 
本 处 理 进行 了 介绍 ， 但 在 自然 语言 中 ， 
还 有 更 重要 的 语音 交流 尚未 涵盖 。 因 
此 ， 在 本 章 中 ， 我 们 将 针对 TensorFlow 
在 语音 处 理 方面 的 应 用 进行 讲解 。 


[oa 语音 处 理 简介 ^ 


对 语音 的 处 理 主要 包括 语音 识别 和 语音 合成 两 大 类 。 

语音 识别 就 是 让 机 器 通过 识别 、 理 解 等 过 程 把 语音 信号 转换 为 相应 的 文本 或 命令 ， 
通俗 而 言 就 是 让 计算 机 “上 听 懂 ”人 类 语音 。 语 音 识别 可 以 说 是 当下 人 工 智能 发 展 的 重要 入 
口 ， 莘 果 的 Siri、 亚 马 逊 的 Echo 以 及 国内 的 讯 飞 语 记 、 小 米 的 小 爱 同学 等 ， 都 已 经 具备 不 
错 的 功能 ， 可 以 说 语音 识别 正在 进入 我 们 的 生活 。 

语音 合成 与 语音 识别 的 过 程 正好 相反 ， 从 广义 上 讲 ， 语 音 合成 是 指 通过 机 械 的 、 电 子 
的 方法 产生 人 造 语 音 ， 而 我 们 通常 所 说 的 语音 合成 是 指 将 计算 机 自己 产生 的 或 外 部 输入 的 
文字 信息 转换 为 语音 输出 。 


EXE] 语音 识别 模型 


语音 识别 模型 从 功能 步骤 上 可 以 分 为 三 步 : 第 一 步 从 语音 中 提取 特征 ， 获 取 语 音 向 
量 ; 第 二 步 对 语音 向 量 进行 解码 ， 第 三 步 获 取 结 果 。 

在 语音 识别 中 ， 关 键 技术 就 是 对 于 语音 向 量 的 训练 解码 过 程 ， 主 要 包括 声学 模型 的 、 
字典 以 及 语言 模型 的 构建 。 整 个 语音 识别 的 典型 模型 如 图 9.1 所 示 。 
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图 9.1 语音 识别 模型 
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1. 声学 特征 提取 

对 于 一 段 语音 ， 从 输入 开始 ， 在 声学 特征 提取 阶段 主要 完成 如 下 操作 。 

(1) 格式 转换 

输入 语音 之 后 ， 进 行 模 数 转 换 ， 将 模拟 信号 转变 为 数字 信号 。 在 实际 的 音频 文件 处 理 
中 ， 一 般 都 选择 未 经 压缩 的 纯 波 形 文件 ， 比 如 Windows 的 .wav 文 件 。 常 见 的 音频 格式 (如 
MP3) 等 ， 都 是 经 过 压缩 处 理 的 ， 需 要 进行 格式 转换 。 

(2) 音频 预 处 理 

对 音频 数字 信号 的 预 处 理 主要 是 指 去 除 首尾 两 端的 静音 部 分 ， 从 而 降低 对 后 续 步 又 造 
成 的 干扰 。 

(3) 分 帧 处 理 

分 帧 处 理 就 是 把 声音 文件 切 成 各 小 段 ， 每 一 小 段 ， 称 为 一 帧 。 在 分 帧 操作 时 ， 并 不 是 
简单 随意 地 将 音频 文件 切 开 ， 而 是 通过 移动 窗 函 数 的 方式 来 实现 ， 让 每 一 帧 音频 并 不 独立 
存在 而 是 互相 关联 。 

(4) 特征 提取 

完成 分 帧 处 理 后 ， 语 音 就 变 成 了 很 多 小 段 ， 我 们 可 以 在 每 一 小 段 语音 上 进行 特征 
提取 。 最 常用 的 一 种 提取 方法 是 Mel 频 率 倒 谱 系数 (MFCC) 方 法 ， 可 通过 该 方法 获得 声 
学 特征 。 

采用 MFCC 方 法 提取 声学 特征 的 过 程 主要 包括 对 分 帧 信号 进行 FFT， 得 到 不 同时 间 窗 
内 对 应 的 频谱 ， 然 后 将 频谱 通过 Mel 滤 波 器 组 得 到 Mel 频 谱 ， 之 后 在 Mel 频 谱 上 进行 取 对 
数 、 做 逆 变 换 、 获 取 DCT 等 操作 ， 从 而 获得 MFCC， 该 MFCC 就 是 这 帧 语音 的 特征 。 

Python 提供 了 一 个 常用 于 音频 、 乐 音信 号 分 析 的 工具 包 1librosa， 其 中 提供 了 处 理 语音 
的 方法 ， 包 括 MFCC 方 法 。 

2. 声学 模型 

声学 模型 (Acoustic Model，AMD) 可 以 理解 为 对 发 声 的 建 模 。 它 能 够 把 语音 输入 转换 成 
语言 发 音 的 声音 元 素 ， 然 后 将 这 些 声音 元 素 转换 为 可 以 识别 的 字母 的 模型 。 

声学 模型 一 般 使 用 高 斯 混合 模型 (GMM) 或 深度 神经 网 络 (DNN) 等 方法 来 完成 声音 元 素 
的 识别 ， 再 使 用 隐 马 尔 可 夫 模型 (HMMD) 或 动态 时 间 归 整 (DTW) 等 算法 来 对 齐 识别 结果 ， 从 
而 判断 对 应 的 单词 。 


3. 字典 

字典 用 于 判断 连续 声音 元 素 表达 的 具体 是 哪个 单词 。 因 为 多 数 情况 下 ， 通 过 模型 识别 
的 每 个 声音 元 素 并 不 是 个 完整 的 单词 ， 无 法 对 应 到 正确 的 语言 文字 输出 。 当 需要 识别 出 多 
个 声音 元 素 时 ， 利 用 字典 可 以 判断 所 表达 的 具体 单词 。 

4. 语言 模型 

语言 模型 的 作用 是 在 声学 模型 给 出 发 音 序列 之 后 ， 从 候选 的 文字 序列 中 找 出 概率 最 大 
的 字符 串 序列 ， 目 前 最 常用 的 是 N-Gram 语 言 模 型 和 基于 RNN 的 语言 模型 。 
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语音 合成 模型 从 功能 上 可 以 分 为 两 步 : 一 是 文本 处 理 ， 二 是 语音 合 

在 文本 处 理 中 ， 主 要 是 把 文本 转换 成 音素 序列 ， 并 标 出 每 个 音素 的 起 止 时 间 、 频 率 变 
化 等 信息 。 文 本 处 理 是 语音 合成 前 的 预 处 理 步骤 ， 涉 及 很 多 处 理 中 的 细节 问题 ， 例 如 拼写 
相同 但 读音 不 同 的 词 的 区 分 、 缩 写 的 处 理 、 停 顿 位 置 的 确定 等 。 

在 语音 合成 中 ， 依 据 音素 序列 生成 语音 。 在 生成 语音 的 过 程 中 ， 主 要 有 三 类 方法 ， 分 
别 是 拼接 法 、 参 数 法 以 及 波形 统计 语音 合成 。 

拼接 法 是 指 从 事先 录制 的 大 量 语音 中 ， 选 择 所 需 的 基本 单位 拼接 合成 语音 。 这 样 合成 
的 语音 ， 虽 然 是 由 真人 录制 的 声音 ， 听 起 来 都 是 正确 的 读音 ， 但 是 缺少 文本 中 的 情感 。 
而 且 ， 如 果 出 现 语音 库 中 没有 对 应 的 语音 ， 或 者 文本 处 理 时 标注 出 错 等 情况 ， 最 终 的 发 
音 自然 也 是 错误 的 。 因 此 ， 为 了 保证 语音 的 高 质量 特性 ， 语 音 库 需 要 足够 庞大 才能 保证 
覆盖 率 。 

参数 法 根据 统计 模型 来 产生 每 时 每 刻 的 语音 参数 ， 主 要 是 基 频 、 共 振 峰 频率 等 。 然 后 
把 这 些 参 数 通过 声 码 器 (vocoder) 生 成 波形 。 由 于 这 种 方法 使 用 统计 模型 进行 预测 ， 因 此 对 
于 语音 库 里 的 标注 错误 并 不 敏感 。 但 最 后 输出 的 是 用 声 码 器 合成 的 声音 ， 毕 竟 有 损失 ， 所 
以 听 起 来 不 自然 。 

波形 统计 语音 合成 是 基于 深度 学 习 的 神经 网 络 实现 的 ， 主 要 特点 是 不 对 语音 信号 进行 
参数 化 ， 而 是 采用 神经 网 络 算法 直接 预测 合成 语音 波形 的 每 一 个 采样 点 。 采 用 这 种 方法 合 
成 的 语音 ， 在 音质 方面 略 差 于 拼接 法 ， 但 相对 于 拼接 法 而 言 系统 更 稳定 。 由 于 需要 预测 每 
一 个 采样 点 ， 需 要 进行 大 量 的 运算 ， 因 此 合成 速度 较 慢 。 以 前 由 于 各 种 原因 导致 无 法 实现 
基于 波形 的 统计 合成 系统 ， 后 来 谷歌 发 布 了 WaveNet 模 型 ， 证 明了 语音 信号 可 以 在 时 域 上 
进行 预测 ， 此 类 实现 方法 是 现 阶段 研究 的 一 个 热点 。 
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语音 识别 的 目标 就 是 听 懂 人 类 语言 ， 而 最 基础 的 人 类 语言 就 是 数字 。 在 本 节 中 ， 我 们 
将 创建 一 个 简单 的 英文 数字 识别 器 。 
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对 于 英文 数字 的 识别 ， 在 训练 数据 集 上 ， 我 们 选择 的 是 spoken_numbers_pcm 数 据 集 。 
该 数据 集 是 许多 人 阅读 0~9 十 个 数字 的 英文 音频 ， 分 男声 和 女声 。 文 件 名 的 命名 方法 为 
“数字 _ 人 名 _xxx”， 例 如 : 


8_Susan_200.wav 
8_Kate_300.wav 


数据 预 处 理 主要 是 对 音频 文件 的 声学 特征 进行 提取 ， 采 用 的 是 最 常用 的 Mel 频 率 倒 谱 
系数 (MFCC) 方 法 '， 具 体 实现 如 下 : 
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import tensorflow as tf 

import librosa # 使 用 MFCC 方 法 
width = 20 # MFCC 特 征 
height = 80 # 最 大 发 声 长 度 
classes = 10 # 数 字 类 别 


batch = word batch = speech data.mfcc batch generator(batch size) ” 夫 周 用 具体 方法 
X, Y = next(batch) 
trainX, trainY = X, Y 
testX, testY = X, Y 
3t mfcc_batch_generator 方 法 ， 生 成 一 批 MFCC 语 言 
def mfcc_batch_generator(batch_size=10, source=Source.DIGIT_WAVES, target=Target.digits): 
maybe_download(source, DATA. DIR) # 下载 数据 集 
if target == Target.speaker: speakers = get speakers() 
batch. features = [] 
labels = [] 
files = os.listdir(path) 
while True: # 将 数据 集中 的 音频 处 理 为 音频 和 标签 
print('loaded batch of 96d files" 96 len(files)) 
shuffle(files) 
for wav in files: 
if not wav.endswith(" wav") continue 
wave, sr = librosa.load(path-*wav, mono- True) 
if target--Target.speaker: labelzone hot from item(speaker(wav), speakers)# 编 码 
elif target-- Target.digits: labelzdense to one hot(int(wav[0]),10) 
elif target--Target.first letter: labelzdense to one hot((ord(wav[0]) - 48) % 32,32) 
else: raise Exception("todo : labels for Target!") 
labels.append(label) 
mfcc = librosa.feature.mfcc(wave, sr) # 获 取 MFCC 
mfccenp.pad(mfcc,((0,0),(0,80-len(mfcc[0]))), mode-'constant', constant_values=0) 
batch features.append(np.array(mfcc)) 
iflen(batch features) >= batch size: 
yield batch features, labels 
batch. features = [] 
labels = [] 


43 E https://github.com/pannous/caffe-speech-recognitionforsomedatasources . 


9.2.2 Kor 


由 于 输入 数据 只 是 某 个 数字 的 读音 ， 是 单个 声音 元 素 ， 因 此 不 需要 额外 使 用 声学 模型 
和 字典 。 对 于 训练 网 络 使 用 LSTM 循 环 神经 网 络 。 识 别 模型 的 构建 使 用 TFLearn 第 三 方 库 
来 实现 ， 具 体 实现 如 下 : 


01 import tflearn 

02 net = tflearn.input. data([None, width, height]) 

03 net = tflearn.Istm(net, 128, dropout-0.8) 

04 net= tflearn.fully connected(net, classes, activation-'softmax) 

05 net = tflearn.regression(net, optimizer-'adam', learning rate-learning rate, loss-'categorical . 
crossentropy") 


[9.2.3] 训练 模型 


进行 识别 模型 的 训练 ， 并 在 完成 训练 后 保存 模型 ， 具 体 实现 如 下 : 


01 model = tflearn.DNN(net, tensorboard_verbose=0) 

02 while 1: 

03 model.fit(trainX, trainY, n_epoch=10, validation set-(testX, testY), show_metric=True, 
batch_size=batch_size) 

04 _y=model.predict(X) 

05 model.save("tflearn.lstm.model") 


[9.2.4 s 


任意 输入 数据 集中 的 一 个 文件 ， 使 用 训练 模型 进行 预测 评估 ， 具 体 实现 如 下 : 


demo. file-"8 Susan 200.wav" 

demozspeech data.load wav. file(speech data.path-demo file) 
result-model.predict([demo]) 

resultznumpy.argmax(result) 

print("the file is 96s : result is 96d" 96(demo file,result)) 


在 完成 模型 的 训练 后 ， 运 行 代码 进行 测试 ， 结 果 如 下 : 
the file is 8_Susan_200.wav : result is 8 


结果 是 准确 的 ， 能 够 正确 地 识别 出 数字 “8”。 
对 于 简单 的 数字 语音 识别 ， 训 练 模型 较 简单 且 训练 的 准确 率 也 较 高 。 


LE m O 


除了 能 够 听 懂 数字 ， 机 器 学 习 也 能 听 懂 中 文 。 在 进行 英文 数字 这 样 的 单 音素 语音 识 
别 时 ， 由 于 输入 音素 和 识别 结果 这 样 的 场景 相对 简单 ， 因 此 实现 的 过 程 也 相对 简单 。 但 
是 对 于 真实 环境 中 自然 语言 的 语音 识别 ， 就 需要 增加 语音 的 前 期 处 理 ， 主 要 包括 词汇 表 
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的 生成 等 。 
接 下 来 ， 将 详细 讲解 简单 的 中 文 语音 识别 。 


| 9.3.1 sss 


在 数据 集 上 ， 我 们 使 用 公开 的 清华 大 学 连续 普通 话 数据 库 (THCHS-30)， 这 是 清华 大 学 
录制 的 含 30 个 小 时 的 中 文 语音 库 。 该 语音 库 选取 了 大 量 的 新 闻 稿件 ， 由 大 学 生 使 用 流利 的 
普通 话 在 安静 的 办 公 室 环境 中 进行 录音 ， 总 时 长 超过 30 个 小 时 。 数 据 集 文 件 如 图 9.2 所 示 。 


= 


名 称 大 小 
" 

I noise 

|; test 

L test-noise 

Ji train 

i train-noise 


图 9.2 THCHS-30 数 据 集 


数据 集 按 照 有 无 噪声 分 为 两 类 。 

对 于 无 噪音 数据 集 ， 分 别 存放 在 train 和 test 文 件 夹 中 ， 从 而 区 别 训练 数据 集 和 测试 
数据 集 。 将 train 文 件 夹 中 的 数据 分 为 ABC 三 组 ，A 组 的 句子 id 是 0~249，B 组 的 句子 id 是 
250~499，C 组 的 句子 id 是 500~749， 这 三 组 共 包 括 30 个 人 的 10 893 句 发 音 ， 主 要 作为 训练 
数据 集 。 将 test 文 件 夹 中 的 数据 归 为 D 组 ，D 组 的 句子 id 是 751~1000， 包 括 10 个 人 的 2496 句 
发 音 ， 用 于 测试 。 

对 于 噪音 数据 集 ， 分 别 存放 在 noise、train-noise 以 及 test-noise 文 件 夹 中 。 其 中 ，noise 
文件 夹 中 存放 的 是 白 噪声 ， 如 汽车 噪声 和 咖啡 馆 噪 声 等 。train-noise 和 test-noise 文 件 夹 中 分 
别 存放 的 是 原始 录音 以 及 对 噪声 进行 波形 混合 之 后 的 结果 。 

对 于 数据 集 的 处 理 ， 主 要 步骤 包括 原始 数据 的 获取 、 生 成 词汇 表 和 生成 词 编码 '。 

1. 原始 数据 的 获取 

在 数据 集中 包括 训练 用 的 音频 文件 和 对 应 的 文本 文件 。 首 先 ， 我 们 获取 音频 文件 ， 具 
体 实现 如 下 : 


01 wav. path = 'data/wav/train' 

02 defget wav. files(wav path = wav. path): 

O3 wav files 7 [] 

O4  for(dirpath, dirnames, filenames) in os.walk(wav. path): 


05 for filename in filenames: 

06 if flename.endswith(".wav" or filename.endswith(" WAV"): 
07 filename path = os.sep.join([dirpath, filename]) 

08 if os.stat(filename path).st size < 240000: 


1 «5 -https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/speech 
commands. 


09 continue 
10 wav. files.append(filename path) 
11 return wav. files 


文本 文件 是 语音 对 应 的 文本 ， 将 文本 文件 作为 语音 文件 的 标签 进行 一 一 对 应 ， 具 体 实 


现 如 下 : 


01 wav. files = get wav. files() 

02 defget wav label(wav files = wav. files, label file = label file): 
O3 labels dict = [) 

O4 with open(label file, "r", encoding-'utf-8") as f: 

05 for label in f: 


06 label = label.strip(^n") 

07 label id, label text = label.split(' ', 1) 
08 labels dict[label id] = label text 

O9 labels - [] 


10 new wav. files = [] 
11 for wav. file in wav files: 


12 wav. id = os.path.basename(wav  file).split("."[O] 
13 if wav idin labels dict: 

14 labels.append(labels dict[wav id]) 

15 new wav. files.append(wav. file) 

16 return new. wav files, labels 

2. 生成 词汇 表 


从 训练 数据 中 提取 出 所 有 的 单词 ， 并 统计 各 个 单词 出 现 的 次 数 ， 生 成 要 使 用 的 词汇 
具体 实现 如 下 : 


01 all words 7 [) 

02  forlabelin labels: 

03 all. words += [word for word in label] 

04 counter = Counter(all words) 

05 count pairs = sorted(counter.items(), key=lambda x: -x[1]) 
06 words, _ -zip(*count pairs) 

07 words size = len(words) 

O8 “print(u" 词 汇 表 大 小 :", words size) 


3. 生成 词 编码 
对 于 语音 的 输入 ， 需 要 根据 词汇 表 进 行 编码 ， 然 后 才能 使 用 。 编 码 过 程 的 具体 实现 


如 下 : 


01 word_num_map= dict(zip(words, range(len(words)))) 

02 to num = lambda word: word num map.get(word, len(words)) 

03 f 将 单个 文件 的 标签 映射 为 数字 ， 返 回 对 应 的 列表 ， 最 终 所 有 的 文件 组 成 戏 套 列表 
04 labels vector = [list(map(to num, label)) for label in labels] 


完成 对 应 的 词汇 映射 后 ， 为 了 后 续 分 块 处 理 ， 获 取 最 长 句子 的 字数 以 及 最 长 语音 的 长 
具体 实现 如 下 : 


01 label max len = np.max([len(label) for label in labels vector]) 
02 ”print(u'" 最 长 句子 的 字数 :" + str(label max, len)) 
O3 wav max len=0 
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04  forwavin wav. files: 

05 wav,sr = librosa.load(wav,mono=True 关 处 理 语音 信号 的 库 librosa 

06 #0 载 音频 文件 

07 mfcc-np.transpose(librosa.feature.mfcc(wav,sr), [1,0] 特征 提取 函数 ， 转 置 特征 参数 
08 iflen(mfcc)>wav_max_len: 

09 wav_max_len = len(mfcc) 

10 print(" 最 长 的 语音 ", wav max len) 


EEE] seinem 


由 于 涉及 识别 问题 ， 因 此 考虑 使 用 卷 积 神经 网 络 。 为 了 提高 训练 过 程 中 的 效果 ， 使 用 
残 次 网 络 (Residual Network) 这 种 在 深度 神经 网 络 算法 中 经 常 使 用 的 技巧 。 

1. 神经 网 络 架构 

神经 网 络 架 构 的 具体 实现 如 下 : 


01 defspeech to text network(n dim = 128, n. blocks = 3): 

02  out-convtd layer(input tensor-X, size=1, dim = n dim, activation-'tanh', scale-0.14, 
bias-False) HEU 

O3 4 Skip ConnectiontzI5 

O4  defresidual block(input sensor, size, rate): 


05 conv. filter = aconvid layer(input tensor-input sensor, size-size, rate-rate, 
activation-'tanh', scale=0.03, bias-False) 

06 conv. gate = aconv1d layer(input tensor-input sensor, size-size, rate-rate, 
activation-'sigmoid', scale-0.03, bias-False) 

07 out = conv. filter * conv. gate 

08 out = convid layer(out, size = 1, dimzn dim, activation-'tanh', scale-0.08, 
bias-False) 

09 return out * input. sensor, out 

10 skip=0 


11 for inrange(n blocks): 
12 for r in [1, 2, 4, 8, 16]: 


13 out, s = residual block(out, size = 7, rate 7 r) 
14 skip += s 
15 # 两 个 卷 积 层 


16 logit= conv1d_layer(skip, size = 1, dim = skip.get_shape().as_list()[-1], activation-'tanh', 
scale = 0.08, bias=False) 

17 # 最 后 那个 卷 积 层 的 输出 值 大 小 是 词汇 表 大 小 

18 logit = conv1d_layer(logit size = 1, dim = words. size, activation = None, scale = 0.04, 
bias = True) 

19 return logit 

对 于 上 述 实现 的 神经 网 络 模型 ， 在 conv1d_layer 卷 积 层 中 完成 对 应 的 卷 积 处 理 ， 具 体 

实现 如 下 : 

01 convid index- 0 

02 def conv1d layer(input tensor, size, dim, activation, scale, bias): 

03  globalconvid index IOS ESSE 


O4  withtf.variable scope("conv1d " + str(convid index)): 
05 W = tf.get. variable(W', (size, input. tensor.get shape().as list()[- 1], dim), 


dtypeztf.float32, initializer-tf.random uniform initializer(minval--scale, maxval-scale)) 


06 if bias: 
07 b = tf.get variable('b', [dim], dtype = tf.float32, initializer-tf.constant initializer(O)) 
08 out = tf.nn.conv1d(input. tensor, W, stride-1, padding='SAME'")# 输 出 与 输入 同 维度 
09 if not bias: 
10 beta = tf.get. variable('beta', dim, dtype-tf.float32, 
initializer-tf.constant initializer(O)) 
11 gamma = tf.get. variable'gamma', dim, dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 
12 mean running = tf.get variable('mean', dim, dtype-tf.float32, 
initializer-tf.constant initializer(0)) # 均 值 
13 variance running = tf.get. variable('variance', dim, dtype=tf.float32, 
initializer-tf.constant initializer(1) ) #5% 
14 mean, variance = tf.nn.moments(out, axes-list(range(len(out.get shape()) - 1))) 
15 def update running, stat(): 
16 decay - 0.99 
17 # 更 新 操作 ， 完 成 均值 、 方 差 指数 衰减 
18 update op = [mean running.assign(mean running * decay + mean * (1 - 
decay)), variance running.assign(variance running * decay 
* variance * (1 - decay))] 
19 with tf.control dependencies(update op): 
20 return tf.identity(mean), tf.identity(variance) 
21 m, v = tf.cond(tf. Variable(False, trainable=False), update running. stat,lambda: 
(mean. running, variance running)) 
22 out = tf.nn.batch normalization(out, m, v, beta, gamma, 1e-8) 
23 if activation == 'tanh': 
24 out = tf.nn.tanh(out) 
25 elif activation == 'sigmoid': 
26 Out = tf.nn.sigmoid(out) 
27 conv1d index += 1 
28 return out 
aconvld _layer 卷 积 层 的 具体 实现 如 下 : 


01 aconvid index =0 
02 def aconvid layer(input tensor, size, rate, activation, scale, bias): 


03 
04 
05 
06 


07 
08 


09 
10 
11 
42 


13 


global aconvid index 
with tf.variable scope('aconv1d ' + str(aconv1d index)): 


shape = input. tensor.get shaper()as list() 
W = tf.get. variable(W', (1, size, shape[-1], shape[-1]), dtype-tf.float32, 
initializer-tf.random uniform initializer(minval--scale, maxval-scale)) 
if bias: 
b = tf.get variable('b', [shape[- 1]], dtype-tf.float32, 
initializer-tf.constant initializer(O)) 
out = tf.nn.atrous conv2d(tf.expand dims(input tensor, dim=1), W, rate = rate, 
padding-'SAME") 


out = tf.squeeze(out, [1]) 


if not bias: 
beta = tf.get variable('beta', shape[- 1], dtype-tf.float32, 
initializer-tf.constant. initializer(O)) 
gamma = tf.get variablegamma', shape[-1], dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 
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14 mean running = tf.get variable('mean', shape[-1], dtype=tf.float32, 
initializer-tf.constant initializer(O)) 

15 variance running = tf.get variable('variance', shape[-1], dtype-tf.float32, 
initializer-tf.constant initializer(1) ) 

16 mean, variance = tf.nn.moments(out, axes-list(range(len(out.get shape()) - 1))) 

17 def update running. stat(): 

18 decay - 0.99 

19 update op [mean running.assign(mean running * decay + mean * (1 - 


decay)), variance running.assign(variance running * decay 
* variance * (1 - decay))] 


20 with tf.control dependencies(update op): 

21 return tf.identity(mean), tf.identity(variance) 

22 m, v = tf.cond(tf. Variable(False, trainable-False), update running stat,lambda: 
(mean running, variance running)) 

23 out = tf.nn.batch normalization(out, m, v, beta, gamma, 1e-8) 

24 if activation == 'tanh': 

25 out = tf.nn.tanh(out) 

26 elif activation == 'sigmoid': 

27 Out = tf.nn.sigmoid(out) 

28 aconvid index += 1 

29 retum out 

2. 获取 每 批 数据 


在 实际 训练 中 ， 需 要 对 每 批 数据 进行 处 理 。 在 数据 的 处 理 中 ， 主 要 包括 数据 的 转换 和 


对 齐 等 ， 具 体 实现 如 下 : 


01 batch_size=8 # 每 次 取 8 个 文件 
02 n batch = len(wav. files)//batch size 
03 pointer =0 # 全 局 变量 的 初始 值 为 0， 定 义 该 变量 以 逐步 确定 batch 


04 defget next batches(batch size): 
05 global pointer 

06 batches wavs-[] 

07 batches labels - [] 

08  foriin range(batch size): 


09 wav,sr-librosa.load(wav. files[pointer],mono- True) 
10 mfcc -np.transpose(librosa.feature.mfcc(wav,sr),[1,0]) 
41 batches wavs.append(mfcc.tolist()) # 转 换 成 列表 后 存 入 


12 batches labels.append(labels vector[pointer]) 
13 pointer*-1 


14 — SAROXITE 

15  formfccin batches wavs: 

16 while len(mfcc)«wav. max len: 

17 mfcc.append([0]*20) 

18  forlabelin batches labels: 

19 while len(label)label max len: 

20 label.append(0) 

21 return batches wavs,batches labels 

22 X-tf.placeholder(dtype-tf.float32,shape-[batch size,None,20]) # 定 义 输入 格式 


23 sequence len = tf.reduce sum(tf.cast(tf.not equal(tt.reduce sum(X,reduction indices-2), 
0.), tf.int32), reduction indices-1) 
24 Y= tf.placeholder(dtype-tf.int32,shape-[batch size,None]) # 输 出 格式 


| 9.3.3| 训练 模型 


使 用 数据 集 数据 对 构建 的 识别 模型 进行 训练 ， 并 在 完成 训练 后 保存 模型 ， 具 体 实 现 


如 下 : 


01 deftrain speech to text network(wav max len): 


02 
03 
04 
05 


06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


21 
22 


23 
24 


logit = speech_to_text_network() 
# CTC 损 失 函 数 
indices = tf.where(tf.not. equal(tf.cast(Y, tf.float32), 0.)) 
target = tf.SparseTensor(indices-indices, values-tf.gather nd(Y, indices) - 1, 
dense shape-tf.cast(tf.shape(Y), tf.int64)) 
loss = tf.nn.ctc. loss(target, logit, sequence len, time major-False) 
Ir = tf. Variable(0.001, dtypeztf.float32, trainable-False) 
optimizer = MaxPropOptimizer(learning rate-lr, beta2-0.99) 
var. list 7 [tfortin tf.trainable variables()] 
gradient = optimizer.compute gradients(loss, var. list-var. list) 
optimizer op = optimizer.apply gradients(gradient) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
saver - tf.train.Saver(tf.global variables()) 
for epoch in range(16): 
sess.run(tf.assign(lr, 0.001 * (0.97 ** epoch))) 
global pointer 
pointer = 0 
for batch in range(n batch): 
batches wavs, batches labels = get next batches( 
batch, size, wav. max len) 
train loss, _ = sess.run([loss, optimizer. op], feed dict- 
(X: batches wavs, Y: batches labels]) 
print(epoch, batch, train loss) 
if epoch 96 5 == 0: 
saver.save(sess, '/speech.module', global step-epoch) 


数据 的 训练 时 间 和 使 用 的 设备 性 能 有 关 ， 如 果 使 用 非 GPU 进 行 训 练 ， 一 般 需要 两 到 


三 天 


FEQ seen 


完成 对 模型 的 构建 和 训练 后 ， 接 下 来 使 用 测试 数据 集中 的 数据 对 模型 进行 测试 ， 具 体 
实现 如 下 : 


01 def speech_to_text(wav_file): 


02 
03 
04 
05 
06 
07 
08 


wav, Sr = librosa.load(wav. file, mono- True) 
mfcc = np.transpose(np.expand dims(librosa.feature.mfcc(wav, sr), axis=0), [0, 2, 1]) 
logit = speech to text network() 
saver = tf.train.Saver() 
with tf.Session() as sess: 
saver.restore(sess, tf.train.latest checkpoint('.") 
decoded = tf.transpose(logit, perm=[1, 0, 2]) 


al 
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09 decoded, -tf.nn.ctc beam search  decoder(decoded, sequence len, 
merge repeated-False) 
10 predict = tf.sparse to dense(decoded([0].indices, decoded[0].shape, 


decoded[0].values) + 1 
pui output = sess.run(decoded, feed dict-(X: mfcc]) 
12 print(output) 


通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 语音 识别 处 理 方式 。 


ILC NENNT 1 


前 面 介绍 了 语音 识别 ， 这 是 一 种 从 语音 实现 文本 输出 的 技术 。 本 节 将 讲解 语音 合成 ， 
这 是 一 种 从 文本 转换 为 自然 语音 输出 的 技术 。 


[9.4.1] Tacotron 模 型 


我 们 已 经 介绍 过 语音 合成 是 一 项 复杂 的 工程 ， 包 括 文本 分 析 、 音 频 合成 等 步骤 ， 涉 
及 多 种 技术 。 谷 歌 作为 人 工 智能 领域 的 先行 者 ， 为 后 来 人 提供 了 丰富 的 模型 和 工具 ， 例 如 
Tacotron 模 型 !'。 

Tacotron 是 一 个 端 到 端的 语音 合成 模型 ， 该 模型 的 核心 结构 是 具有 Attention 机 制 的 
Seq2Seq 模 型 。 它 将 一 系列 文本 向 量 转换 为 对 应 的 音频 。 该 模型 的 结构 如 图 9.3 所 示 。 


为 所 有 解码 过 程 都 
应 用 Attention 机 制 


图 9.3 ”Tacotron 模 型 的 结构 


1 ”相关 内 容 请 参考 https://arxiv.org/pdf/1703.10135.pdf。 


Tacotron 模 型 可 以 分 为 编码 器 、 解 码 器 以 及 后 处 理 网 络 三 大 模块 。 
图 9.3 的 左 侧 是 编码 器 模块 ， 主 要 用 于 对 输入 的 文本 进行 编码 转换 。 首 先 对 文本 进行 


数据 处 理 ， 然 后 转换 为 独 热 向 量 ， 作 为 编码 器 的 输入 。 在 编码 器 中 ， 在 经 过 预 处 理 模块 


处 到 


E 后 ， 将 向量 输入 特征 提取 (CBHG) 模 块 中 ， 最 后 从 CBHG 模 块 中 得 到 原始 文本 的 表示 


序列 。 


图 9.3 的 右 下 方 是 解码 器 模块 ， 它 从 输入 序列 中 学 习 得 到 音频 幅度 采样 ， 网 络 结构 中 


主要 包括 预 处 理 模块 、Attention-RNN 以 及 解码 器 RNN 三 部 分 。 


图 9.3 的 右上 角 是 后 处 理 网 络 模块 。 该 模块 对 解码 器 输出 的 线性 幅度 采样 ， 进 行 处 理 


并 使 用 Griffin-Lim 算 法 将 线性 谱 图 合成 为 语音 输出 。 


| 9.4.2 esses 


洗 、 


在 编码 器 模块 中 ， 主 要 完成 对 输入 的 文本 数据 进行 编码 的 过 程 ， 包 括 原始 数据 的 清 
生成 词汇 表 、 转 换 词 编码 ， 从 而 转换 为 数据 向 量 。 然 后 对 数据 向 量 进行 预 处 理 和 特征 


提取 ， 从 而 获得 输入 文本 的 有 效 表 示 序 列 '。 


先 ， 


1. 生成 词汇 表 
因为 纯 文本 数据 无 法 作为 深度 学 习 的 输入 ， 所 以 需要 将 文本 转换 为 对 应 的 向 量 。 首 
需要 生成 词汇 表 ， 然 后 通过 遍历 词汇 表 将 文本 转换 成 对 应 的 向 量 。 词 汇 表 的 生成 基于 


语料库 ， 具 体 实现 如 下 : 


01 def create_vocabulary(vocabulary_path, data_paths, max_vocabulary_size, tokenizer=None): 
02  ifnotos.path.exists(vocabulary. path): 

03 print("Creating vocabulary 96s from data 96s" % (vocabulary path, str(data paths))) 

04 vocab - defaultdict(int) 

05 for path in data paths: 


06 with codecs.open(path, mode-"r", encoding-"utf-8") as fr: 
07 counter = 0 

08 for line in fr: 

09 counter += 1 

10 if counter % 100000 == 0: 

11 print" processing line 96d" % (counter,)) 

12 tokens - tokenizer(line) 

13 for w in tokens: 

14 word = re.sub( DIGIT. RE, "", w) 

15 vocab[word] += 1 

16 vocab list = sorted(vocab, key-vocab.get, reverse-True) 

17 print(" Vocabulary size: 96d" 96 len(vocab list)) 

18 iflen(vocab list) > max. vocabulary. size: 

19 vocab list = vocab list:max vocabulary size] 

20 with codecs.open(vocabulary path, mode-"w", encoding-"utf-8") as vocab file: 
21 for w in vocab list: 

22 vocab file.write(w + ^n") 


1 ”代码 可 参考 https://github.com/Kyubyong/tacotron。 
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2. 生成 词 向 量 
生成 词汇 表 后 ， 要 对 每 一 个 输入 的 文本 进行 词 向 量 的 转换 ， 具 体 实现 如 下 : 


01 embedding_table = tf.get_variable( 

02 'embedding', [textinput.num_symbols(), 256], dtype-tf.float32, 
initializer-tf.truncated normal initializer(stddev-0.5)) 

03 embedded inputs = tf.nn.embedding lookup(embedding table, inputs) 


3. 预 处 理 

对 于 输入 的 词 向 量 要 进行 预 处 理 。 在 预 处 理 的 神经 网 络 中 ， 具 有 两 个 隐 层 ， 层 与 层 
之 间 的 连接 均 是 全 连接 。 第 一 个 隐 层 的 神经 元 节点 数 与 输入 的 神经 元 节点 数 相同 ， 都 为 
256， 选 择 第 二 个 隐 层 的 神经 元 节点 数 为 128。 两 个 隐 层 的 激活 函数 使 用 全 连接 中 常用 的 
relu 函 数 。 为 了 保证 训练 过 程 的 随机 性 ， 选 择 Dropout 为 0.5， 具 体 实 现 如 下 : 


01 def prenet(inputs, is. training, layer_sizes=[256, 128], scope-None): 

02 x= inputs 

O3 drop rate = 0.5 if is_training else 0.0 

O4 with tf.variable_scope(scope or 'prenet'): 

05 fori, size in enumerate(layer_sizes): 

06 dense = tf.layers.dense(x, units=size, activation=tf.nn.relu, name='dense_%d' 96 (i+1)) 
07 x = tf.layers.dropout(dense, rate=drop_rate, name='dropout_%d' 96 (i+1)) 

08 retumx 


4. CBHG 模 块 


CBHG 模 块 是 Tacotron 的 重要 模块 ， 主 要 用 于 从 输入 中 提取 有 价值 的 特征 ， 有 利于 
高 模型 的 泛 化 能 力 。CBHG 模 块 的 结构 如 图 9.4 所 示 。 


T 


提 


图 9.4 CBHG 模 块 的 结构 


从 图 9.4 中 可 以 很 明显 地 看 到 ，CBHG 模 块 由 卷 积 层 、 高 速 神经 网 络 层 以 及 双向 
RNN 组 成 。 

在 卷 积 层 中 ， 整 体 上 分 为 4 个 隐 层 。 第 一 层 是 K 个 大 小 不 同 的 一 维 卷 积 核 ， 卷 积 核 的 
大 小 分 别 为 1、2、3、…、K。 采 用 这 些 大 小 不 同 的 卷 积 核 从 原始 信息 中 提取 长 度 不 同 的 
上 下 文 信息 。 然 后 第 二 层 是 池 化 层 ， 对 获取 的 信息 进行 池 化 处 理 。 第 三 层 和 第 四 层 是 卷 积 
层 ， 对 经 过 池 化 处 理 的 信息 进行 卷 积 处 理 。 完 成 卷 积 层 的 处 理 后 ， 将 卷 积 层 的 输出 和 棋 入 
之 后 的 序列 相 加 ， 进 行 直 连接 。 

对 于 卷 积 层 ， 具 体 实现 如 下 : 


01 def conv1d(inputs, kernel size, channels, activation, is. training, scope): 
02 with tf.variable scope(scope): 

O3  convid output = tf.layers.conv1d( 

04 inputs, 

05 filers-channels, 

06 kernel size-kernel size, 

07 activation-activation, 

08 padding-'same") 

09 return tf.layers.batch normalization(conv1d output, training-is training) 


高 速 神经 网 络 层 的 目的 就 是 提高 学 习 效 率 。 将 高 速 神经 网 络 层 中 每 一 层 的 结构 设 
计 为 : 将 输入 同时 放 入 两 个 一 层 的 全 连接 网 络 中 ， 这 两 个 网 络 的 激活 函数 分 别 是 relu 
和 sigmoid 函 数 。 假 设 输 入 为 input，relu 函 数 的 输出 为 output1，sigmoid 函 数 的 输出 为 
output2， 则 高 速 神经 网 络 层 的 输出 output=output1xoutput2+inputx(1-output2)。 

为 了 缓解 网 络 加 深 带 来 的 过 拟 合 问题 以 及 减少 较 深 网 络 的 训练 难度 ， 在 实践 中 采取 四 
层 的 高 速 神 经 网 络 层 ， 具 体 实 现 如 下 : 


01 def highwaynet(inputs, scope): 
02 with tf.variable scope(scope): 
03  H-tflayers.dense( 
inputs, 
units-128, 
activation-tf.nn.relu, 
name-'H 
04 T-tflayers.dense( 
inputs, 
unitsz128, 
activation-tf.nn.sigmoid, 
name='T', 
bias_initializer=tf.constant_initializer(-1.0)) 
05  retumH*T + inputs * (1.0 - T) 


在 双向 RNN 层 ， 对 高 速 神经 网 络 层 的 输出 进行 训练 ， 获 取 最 终 的 输出 。 
因此 ， 整 个 CBHG 模 块 的 具体 实现 如 下 : 

01 def cbhg(inputs, input lengths, is training, scope, K, projections): 

02 with tf.variable scope(scope): 


O3 with tf.variable scope('conv. bank): 
04 conv outputs - tf.concat( 
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05 


06 
07 


08 
09 
10 
bu 
12 
13 
14 
15 
16 


17 


[conv1d(inputs, k, 128, tf.nn.relu, is training, 'conv1d 96d' 96 k) for k in range(1, K+1)], 
axis--1 

) 
maxpool output = tf.layers.max pooling1d( 
conv. outputs, 
pool size-2, 
strides-1, 
padding-'same") 
proj1. output = conv1d(maxpool output, 3, projections[0], tf.nn.relu, is training, 'proj 1") 
proj2. output = conv1d(proj1 output, 3, projections[1], None, is. training, 'proj 2") 
highway. input = proj2. output + inputs 
if highway. input.shape[2] !- 128: 

highway. input = tf.layers.dense(highway. input, 128) 
for i in range(4) : 

highway. input = highwaynet(highway. input, 'highway. 96d' 96 (i+1)) 
rnn. input = highway. input 
outputs, states - tf.nn.bidirectional dynamic rnn( 
GRUCelI(128), 
GRUCell(128), 
rnn. input, 
sequence lengthzinput lengths, 
dtypeztf.float32) 
return tf.concat(outputs, axis-2) # Concat forward and backward 


EZE] seses 


在 解码 器 模块 中 ， 网 络 结构 主要 包括 预 处 理 模块 、Attention-RNN 以 及 解码 器 RNN 


三 部 分 。 


预 处 理 模块 的 结构 与 编码 器 中 的 解码 器 相同 ， 主 要 是 对 输入 做 一 些 非 线性 变换 。 
Attention-RNN 是 带 有 Attention 机 制 的 RNN 模 型 ， 主 要 目的 是 减少 训练 时 间 ， 提 高 训练 


效率 。 


解码 器 RNN 为 两 层 残 差 GRU 组 成 的 循环 神经 网 络 。 
解码 器 模块 的 具体 实现 如 下 : 


01 
02 


03 
04 


05 


# Attention 

attention_cell = AttentionWrapper( 
DecoderPrenetWrapper(GRUCell(256), is training), 
BahdanauAttention(256, encoder. outputs), 
alignment history-True, 

output, attention-False) 

concat. cell = ConcatOutputAndAttentionWrapper(attention cell) 
decoder. cell = MultiRNNCell([ 
OutputProjectionWrapper(concat. cell, 256), 
ResidualWrapper(GRUCell(256)), 
ResidualWrapper(GRUCell(256)) 

] state is tuple-True) 

output. cell = OutputProjectionWrapper(decoder cell, 
hp.num mels * hp.outputs per step) 


06 decoder init state = output cell.zero state(batch size-batch size, dtype-tf.float32) 
07 ifis training: 


08 helper = TacoTrainingHelper(inputs, mel targets, hp.num mels, 
hp.outputs per step) 

09 else: 

10 helper = TacoTestHelper(batch size, hp.num mels, hp.outputs per step) 


411 (decoder. outputs, _), final decoder state, _ = tf.contrib.seq2seq.dynamic_decode( 
BasicDecoder(output. cell, helper, decoder. init state), 
maximum iterations-hp.max  iters) 


ERRE, FAB, PRAW BUDE. TUIETRUA T JESUERRUM. KEE 
取 音 频 特 征 时 ， 会 先 分 帧 ， 相 邻 的 帧 其 实 有 一 定 的 关联 性 ， 所 以 每 个 字符 在 发 音 时 ， 可 能 
对 应 多 个 帧 ， 而 每 个 GRU 单 元 能 够 输出 为 音频 文件 中 的 多 个 帧 。 通 过 这 样 的 处 理 ， 减 小 了 
模型 的 大 小 ， 从 而 降低 了 模型 的 复杂 度 ， 也 就 减少 了 模型 的 训练 和 预测 时 间 ， 提 高 了 收敛 
速度 。 


[9.4.4| 后 处 理 模块 


Tacotron 与 一 般 的 Seq2Seq 网 络 对 解码 输出 结果 的 处 理 不 一 样 ， 不 是 直接 将 结果 作为 输 
出 结果 ， 然 后 采用 Griffin-Lim 算 法 合成 音频 。 为 了 有 效 使 用 Griffin-Lim 算 法 ， 对 输出 结果 
进行 了 后 处 理 。 

由 于 使 用 Griffin-Lim 算 法 的 前 提 是 能 够 获取 所 有 的 音频 帧 ， 因 此 后 处 理 模块 的 目的 就 
是 能 够 获取 整个 解码 序列 。 

在 实践 中 ， 使 用 CBHG 模 块 作为 后 处 理 模 块 ， 具 体 实现 如 下 : 


01 # 增加 后 处 理 模块 
02 post. outputs = post cbhg(mel outputs, hp.num mels, is training) 
03 linear. outputs = tf.layers.dense(post outputs, hp.num freq) 


通过 本 节 的 训练 ， 我 们 了 解 了 完成 语音 合成 的 Tacotron 模 型 。 


IE 5s 结 Ó 


本 章 主 要 讲解 TensorFlow 在 语音 处 理 方面 的 应 用 ， 分 别 以 听 懂 数字 、 听 懂 中 文 以 及 语 
音 合成 为 例 ， 详 细 介 绍 了 机 器 学 习 在 各 种 实例 中 的 应 用 。 
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图 像 处 理 


在 前 面 章节 中 ， 我 们 针对 机 器 学 习 在 
文本 、 语 音 方面 的 应 用 进行 了 讲解 。 在 本 
章 中 ， 将 针对 机 器 学 习 在 图 像 方面 的 应 用 
进行 讲解 ， 让 计算 机 具备 视觉 能 力 。 


| 忆 太 机 器 学 习 的 图 像 处 理 简介 


图 像 处 理 是 计算 机 应 用 的 一 个 重要 场景 ， 常 见 的 处 理 有 图 像 数 字 化、 图 像 编 码 、 图 像 
增强 、 图 像 复 原 、 图 像 分 割 和 图 像 分 析 等 。 只 有 具备 了 图 像 处 理 能 力 ， 才 能 让 计算 机 模拟 
人 的 视觉 机 理 ， 通 过 对 图 像 中 的 纹理 、 颜 色 等 信息 进行 建 模 、 变 形 、 分 割 等 处 理 ， 让 计算 
机 具备 感知 和 理解 图 像 的 能 力 ， 使 得 计算 机 拥有 “视觉 系统 ”， 能 够 “看 到 ”这 个 五 彩 缤 
纷 的 世界 。 

机 器 学 习 在 图 像 处 理 方面 的 应 用 就 是 通过 机 器 学 习 ， 让 计算 机 能 够 具备 更 强大 的 图 像 
处 理 能 力 和 更 高 准确 度 的 模式 识别 能 力 ， 具 有 更 强大 的 “视觉 系统 ”。 

使 用 机 器 学 习 进行 图 像 处 理 的 技术 已 成 功 应 用 到 图 像 修 复 、 物 体 识 别 、 物 体检 测 、 图 
像 问答 和 人 脸 识别 等 领域 。 


[10.1.1 SL 


传统 的 针对 图 像 处 理 的 研究 方法 主要 基于 数学 和 物理 知识 。 由 于 深度 学 习 近 些 年 的 发 
展 ， 越 来 越 多 的 图 形 学 研究 者 将 机 器 学 习 的 方法 应 用 到 图 像 处 理 领域 ， 特 别 是 在 图 像 编辑 
和 图 像 生成 方面 已 经 取得 一 定 的 成 效 。 

图 像 修复 是 图 像 编辑 和 图 像 生成 领域 的 一 个 典型 问题 。 通 俗 来 讲 ， 图 像 修复 就 是 针对 
一 张 被 挖 了 洞 的 照片 ， 利 用 照片 中 的 其 他 信息 将 洞 补 上 的 过 程 。 

对 于 图 像 修复 问题 ， 核 心思 想 就 是 利用 图 像 文件 本 身 的 元 余 性 ， 利 用 图 像 已 知 部 分 的 
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信息 来 补 全 未 知 部 分 。 修 复 的 流程 分 为 两 大 步骤 ， 首 先 选择 待 修补 的 像素 ， 然 后 进行 搜索 
补 全 。 在 选择 待 修补 像素 时 ， 对 于 补 全 区 域 边界 的 像素 依次 计算 补 全 的 优先 度 ， 然 后 选择 
优先 度 高 的 进行 修补 。 也 就 是 说 ， 选 择 周围 像素 可 信 度 高 以 及 图 像 梯度 变化 剧烈 的 位 置 进 
行 优先 修补 。 在 搜索 补 全 时 ， 对 于 补 全 像素 ， 使 用 周围 小 的 像素 块 ， 然 后 在 图 像 已 知 部 分 
搜索 所 有 的 像素 块 ， 找 到 最 相似 的 像素 块 ， 使 用 它们 补 全 未 知 部 分 。 这 样 不 断 欠 代 ， 对 图 
像 进行 修复 。 

这 种 方式 在 实际 实施 的 过 程 中 ， 存 在 两 个 问题 : 一 是 如 果 图 像 已 知 部 分 找 不 到 相似 
的 像素 块 ， 算 法 将 无 法 进行 ， 二 是 搜索 相似 的 像素 块 时 ， 计 算 复杂 度 会 非常 高 ， 算 法 运 
行 效率 低 。 

为 了 有 效 解决 这 两 个 问题 ， 对 算法 进行 了 改进 。 一 方面 ， 当 在 图 像 已 知 部 分 找 不 到 相 
似 像素 块 时 ， 从 互联 网 上 存在 的 大 量 图 片 中 寻找 素材 ， 另 一 方面 ， 针 对 逐步 补 全 效率 低 的 
问题 ， 采 取 直 接 从 其 他 图 像 中 抠 出 完整 的 一 块 来 填补 的 方法 。 

随 着 神经 网 络 算法 的 崛起 ， 针 对 图 像 修复 问题 也 引入 了 机 器 学 习 方 式 来 进行 解决 。 通 
常 ， 利 用 卷 积 神经 网 络 来 学 习 图 像 中 的 高 准确 度 特征 ， 利 用 特征 来 指导 图 像 缺失 部 分 的 生 
成 。 通 过 将 大 数据 和 图 像 高 准确 度 特征 组 合 起 来 ， 使 图 像 修复 得 到 极 大 的 完善 。 


图 像 物体 识别 与 检测 


在 图 像 处 理 中 ， 很 重要 的 一 个 应 用 领域 就 是 识别 、 检 测 图 像 中 的 物体 和 景物 等 。 图 像 
物体 识别 指 的 是 对 一 张 图 片 进行 分 析 ， 识 别 出 这 张 图 片 中 包含 的 物体 。 图 像 物体 检测 指 的 
是 检测 物体 出 现在 图 像 中 的 什么 地 方 ， 一 般 需 要 将 物体 以 外 接 和 矩形 框 的 形式 显示 出 来 。 

图 像 物体 识别 与 检测 在 实际 生活 中 有 着 广泛 的 应 用 ， 例 如 交通 领域 的 交通 场景 物体 识 
别 、 车 辆 计数 、 逆 行 检测 、 车 牌 检测 与 识别 ， 安 防 领 域 的 人 脸 识别 、 行 人 检测 、 智 能 视频 
分 析 、 行 人 跟踪 等 ， 互 联网 领域 的 基于 内 容 的 图 像 检索 、 相 册 自 动 归 类 等 。 

由 于 卷 积 神经 网 络 在 模式 识别 方面 具有 较 强 的 表现 能 力 ， 因 此 ， 图 像 物体 识别 与 检测 
方面 的 算法 也 多 在 卷 积 神经 网 络 的 基础 上 进行 改进 ， 常 用 的 算法 如 下 。 

1.DPM 


DPM(Deformable Parts Model) 是 一 种 非常 成 功 的 目标 检测 算法 ， 是 21 世 纪 初 最 常 
的 检测 算法 ， 是 众多 分 类 器 、 分 割 、 人 体 姿态 和 行为 分 类 的 重要 组 成 部 分 。 它 的 整体 思 
路 是 : 首先 计算 梯度 方向 直方 图 ， 然 后 通过 SVM 训练 得 到 物体 的 梯度 模型 ， 最 后 使 用 这 
些 模型 进行 分 类 检测 。 由 于 在 计算 过 程 中 使 用 的 是 传统 的 滑动 窗口 方法 ， 因 此 计算 量 非 
常 大 。 

2. OverFeat 

该 算法 是 Alex-Net 算 法 的 改进 版 ， 它 使 用 图 像 缩放 和 滑动 窗口 的 方法 ， 在 一 个 卷 积 网 
络 中 同时 完成 物体 识别 、 定 位 和 检测 三 个 任务 。 该 算法 在 ILSVRC2013 竞 赛 中 获得 了 很 好 
的 结果 。 
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3. DeepID-Net 

DeepID-Net 是 一 种 卷 积 神经 网 络 模型 ， 将 输入 的 图 片 分 解 到 一 个 160 维 的 向 量 。 然 后 
在 这 个 160 维 的 向 量 上 ， 套 用 各 种 现成 的 分 类 器 ， 即 可 得 到 结果 。 有 目前， 该 算法 主要 用 于 
人 脸 识 别 。 

4.RCNN 

RCNN 算 法 使 用 聚 类 的 方法 ， 对 图 像 进 行 分 组 ， 得 到 含 多 个 候选 框 的 层次 组 ， 然 后 
判断 这 些 候选 框 中 的 任何 一 个 是 否 对 应 着 一 个 具体 对 象 。 整 个 计算 过 程 是 : 首先 使 用 
Selective Search 从 原始 图 片 中 提取 2000 个 候选 框 ， 然 后 将 候选 框 缩放 成 固定 大 小 ， 最 后 使 
用 CNN 和 全 连接 层 进 行 分 类 。 

5. Fast RCNN 

顾名思义 ， 该 算法 是 RCNN 算 法 的 改进 ， 去 掉 了 RCNN 算 法 中 的 重复 计算 ， 并 微调 了 
候选 框 的 位 置 ， 解 决 了 RCNN 算 法 训练 慢 的 问题 。 主 要 变化 是 引入 了 感 兴趣 区 域 池 化 (ROI 
Pooling)， 整 个 计算 过 程 是 ， 首先 将 原 图 通过 CNN 提 取 特 征 ， 然 后 提取 候选 框 并 将 候选 框 
投影 到 特征 图 上 ， 池 化 采样 成 固定 大 小 ， 最 后 经 过 两 个 全 连接 以 进行 分 类 与 微调 。 

6. Faster RCNN 

该 算法 也 主要 用 于 解决 RCNN 算 法 训练 慢 的 问题 ， 它 重复 利用 多 个 区 域 中 相同 的 
CNN 结 果 ， 几 乎 把 边框 生成 过 程 的 运算 量 降 为 0。 整 个 计算 过 程 是 : 首先 使 用 CNN 提 取 
特征 ， 然 后 经 过 卷 积 核 为 3X3X256 的 卷 积 ， 在 每 个 点 上 预测 k 个 目标 窗口 (anchor box) 
是 否 是 物体 ， 并 微调 目标 窗口 的 位 置 ， 从 而 提取 出 候选 框 。 对 于 候选 框 ， 采 用 与 Fast 
RCNN 算 法 同样 的 方式 进行 分 类 。 

7. SPP-Net 

该 算法 将 空间 金字 塔 池 化 引入 视觉 识别 神经 网 络 模型 。 它 与 RCNN 算 法 的 区 别 是 ， 在 
全 连接 层 输入 时 不 再 需要 归 一 化 图 像 尺 寸 ， 同 时 增加 了 空间 金字 塔 池 化 层 ， 每 张 图 片 只 需 
要 提取 一 次 特征 ， 这 样 提取 到 的 特征 有 更 好 的 尺度 不 变性 ， 可 以 降低 过 拟 合 的 可 能 性 。 

8.YOLO 

这 是 一 种 标准 化 的 、 实 时 的 目标 检测 算法 ， 与 RCNN 算 法 最 大 的 区 别 在 于 极 大 减少 
了 读 取 图 的 次 数 。 在 RCNN 算 法 中 ， 需 要 对 一 张 图 中 划分 的 2000 个 目标 窗口 判断 是 否 是 物 
体 ， 然 后 再 进行 物体 识别 。YOLO 算 法 对 物体 框 的 选择 和 识别 进行 了 结合 ， 将 原 图 缩放 成 
448 像 素 X 448 像 素 大 小 ， 然 后 运行 单个 CNN 来 计算 物体 中 心 是 否 落 入 单元 格 、 物 体 的 位 
置 、 物 体 的 类 别 等 。 但 是 ， 若 在 7X7 框 架 下 识别 物体 ， 当 遇 到 大 量 小 物体 时 则 难以 处 理 。 

9. SSD 

SSD 算 法 结合 了 YOLO 和 Faster RCNN 算 法 的 优势 ， 能 够 在 不 同 层级 的 特征 图 谱 中 进 
行 识 别 ， 能 够 覆盖 更 广 的 范围 ， 相 比 于 YOLO 算 法 ， 两 者 速度 接近 ， 但 SSD 算 法 的 精度 
更 高 。 


[10.1.35 2: 


图 像 问答 不 仅仅 针对 图 像 处 理 ， 还 针对 前 面 章 节 中 介绍 的 自然 语言 文本 处 理 ， 
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于 卷 积 神经 网 络 和 LSTM 单 元 的 结合 ， 实 现 对 图 像 的 分 析 描 述 。 


Bo 2T TT E 


对 图 像 中 物体 的 识别 是 TensorFlow 在 图 像 处 理 中 最 基本 的 一 项 应 用 。 在 本 节 中 将 实现 
对 Cifar-10 数 据 集 图 像 中 物体 的 识别 。 


[10.2.1 «s 


对 于 数据 集 ， 我 们 使 用 公开 的 Cifar-10 数 据 集 。Cifar 是 上 


项 目 研究 所 ，Cifar-10 数 据 集 用 于 图 像 物 体 识别 。 


Cifar-10 数 据 集 包含 60 000 张 RGB 彩 色 图 片 ， 其 中 50 000 张 用 于 训练 、10 000 张 用 于 


加 拿 大 政府 牵头 投资 的 科学 


测试 。 这 些 图 片 分 为 10 个 不 同 的 类 别 ， 每 类 包含 6 000 张 图 片 。 为 了 简化 计算 机 模型 的 任 


务 ， 并 降低 图 片 分 析 的 计算 负载 ， 该 数据 集中 


数据 集中 的 示例 图 片 如 图 10.1 所 示 。 
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图 10.1 ”Cifar-10 数 据 集中 的 示例 图 片 


1 ”参考 https://www.cs.toronto.edu/~kriz/cifar.html。 


hb 每 张 图 片 的 规格 都 是 32 像 素 X32 像 素 '。 该 
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在 对 图 片 数 据 进行 训练 时 ， 为 了 降低 网 络 对 图 片 动态 范围 变化 的 敏感 度 ， 一 般 会 对 
图 片 中 物体 的 位 置 、 亮 度 和 对 比 度 等 进行 调整 。 为 了 降低 输入 图 片 的 元 余 性 ， 提 高 计算 效 
率 ， 会 对 图 片 数据 进行 标准 化 处 理 。 因 此 ， 对 图 片 数据 的 预 处 理 主要 包括 变化 亮度 、 对 比 
度 和 减 去 均值 等 操作 '。 


1. 


原始 数据 的 获取 


从 数据 集中 读 取 图 片 并 将 相关 信息 转换 为 TFRecords 格 式 的 数据 ，TFRecords 数 据 中 包 
括 图 像 的 长 边 像素 、 宽 边 像素 、 颜 色 通道 数 、 图 片 编码 、 图 片 对 应 的 分 类 标签 以 及 图 片 文 
件 ， 具 体 实现 如 下 : 


01 
02 


2. 


def read. cifar1O(fiiename queue): 

class CIFAR10Record(object): 

pass 

result  CIFAR10Record() 

label bytes = 1 
# 图 片 属性 

result.height = 32 

result.width = 32 

result.depth = 3 

image bytes - result.height * result.width * result.depth 

record bytes - label bytes + image bytes 

reader - tf.FixedLengthRecordReader(record bytes-record bytes) 

result.key, value 7 reader.read(filename queue) 

record bytes = tf.decode raw(value, tf.uint8) 

result.label  tf.cast( 
.Strided. slice(record bytes, [0], [label bytes]), tf.int32) 
depth. major = tf.reshape( 
.strided slice(record bytes, [label bytes], [label bytes * image bytes]), 

[result.depth, result.height, result.width]) 

result.uint8image = tf.transpose(depth major, [1, 2, 0]) 
return result 


输入 数据 的 处 理 


Lj 


$ 


对 于 图 片 数据 ， 在 训练 前 要 统一 裁 前 为 24 像 素 X24 像 素 大 小 ， 裁 前 中 央 区 域 用 于 评估 ， 
随机 裁剪 用 于 训练 。 还 要 对 图 片 进行 数据 增 广 ， 包 括 对 图 像 进行 随机 的 左右 翻转 、 随 机 变 
换 图 像 的 亮度 ， 以 及 随机 变换 图 像 的 对 比 度 ， 最 后 对 图 像 进行 白化 操作 ， 具 体 实现 如 下 : 


Ea 


def distorted inputs(data dir, batch size): 
filenames = [os.path.join(data dir, "data batch 96d.bin' 96 i) for i in xrange(1, 6)] 
for f in filenames: 
if not tf.gfile.Exists(f): 
raise ValueError('Failed to find file: ' + f) 
filename queue = tf.train.string input producer(filenames) 
read input = read cifar1O(filename queue) # 获 取 TFRecords 文 件 
reshaped_image = tf.cast(read_input.uint8image, tf.float32) 
IMAGE SIZE = 24 
height = IMAGE. SIZE 


43 E https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10 . 
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11 width=IMAGE_SIZE 
12 # 随 机 裁剪 
13 distorted image - tf.random crop(reshaped image, [height, width, 3]) 
14 # 随 机 翻转 
15 distorted image = tf.image.random flip left right(distorted image) 
16 # 随 机 变换 亮度 
17 distorted image = tf.image.random brightness(distorted image, max_delta=63) 
18 # 随 机 变换 对 比 度 
19 distorted image - tf.image.random contrast(distorted image, lower=0.2, upper=1.8) 
20 # 白 化 操作 
21 float image = tf.image.per image standardization(distorted image) 
22 float image.set shape([height, width, 3]) 
23 read input.label.set shape([1]) 
24 min fraction of examples in queue = 0.4 
25 min queue examples = in(:NUM EXAMPLES PER EPOCH FOR TRAIN * 
min fraction of examples in queue) 
26 print ("Filing queue with 96d CIFAR images before starting to train. ' 
"This will take a few minutes.' % min queue examples) 
27 retum generate image and label batch(float image, read input.label, 
min queue examples, batch. size, shufflez True) 


通过 以 上 步骤 即 可 完成 数据 的 预 处 理 。 在 实际 的 运行 过 程 中 ， 从 磁盘 上 读 取 并 加 载 图 
像 后 ， 完 成 图 像 的 整个 变换 过 程 还 需要 花费 不 少 的 时 间 。 


EDEE) ues 


训练 模型 的 生成 需要 以 卷 积 神经 网 络 为 基础 ， 包 括 两 次 的 卷 积 层 、 池 化 层 以 及 抑制 层 
操作 ， 然 后 进行 全 连接 层 操作 ， 最 后 通过 逻辑 分 类 层 softmax_linear 进 行 输出 。 

对 于 每 一 层 的 权重 ， 需 要 创建 权重 函数 。 为 了 防止 过 拟 合 ， 提 高 泛 化 能 力 ， 在 losses 
中 添加 了 L2 正 则 化 。 有 具体 实现 如 下 : 

01 def variable with weight decay(name, shape, stddev, wd): 

02 dtype = tf.float16 if FLAGS.use fp16 else tf.float32 

O3 var- variable on cpu( 

04 name, 

05 shape, 

06 tf.truncated normal initializer(stddev-stddev, dtype-dtype)) 

07 ifwdis not None: 

08 weight decay = tf.multiply(tf.nn.I2. loss(var), wd, name-'weight loss") 

O9  tf.add to collection('losses', weight decay) 

10 return var 


在 图 像 处 理 中 ， 采 用 卷 积 神经 网 络 分 别 进行 卷 积 操作 、 池 化 操作 以 及 神经 元 节点 抑制 
操作 。 在 卷 积 层 中 ， 输 出 的 结果 由 relu 函 数 进行 激活 。 在 池 化 层 中 ， 使 最 大 池 化 尺寸 和 步 
长 不 一 致 ， 以 增加 数据 的 丰富 性 。 最 后 在 抑制 层 中 ， 对 局 部 神经 元 的 活动 进行 抑制 ， 以 增 
强 整 个 模型 的 泛 化 能 力 。 具 体 实现 如 下 : 


01 convi 
02 with tf.variable scope('conv1') as scope: 
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03  kernel- variable with weight decay(weights', 


04 shape=[5, 5, 3, 64], 
05 Stddev-5e-2, 
06 wd-0.0) 


07 conv -tf.nn.conv2d(images, kernel, [1, 1, 1, 1], padding-" SAME?) 

08  biases- variable on cpu(biases', [64], tf.constant initializer(0.0)) 

09 pre activation  tf.nn.bias add(conv, biases) 

10 convi -tf.nn.relu(pre activation, name-scope.name) 

11 activation summary(conv1) 

12 3s pool 

13 pool -tf.nn.max pool(conv1, ksize=[1, 3, 3, 1], strides-[1, 2, 2, 1], 
padding-'SAME', name-'pool1") 

14 4 normi 

15 norm = tf.nn.Im(pool1, 4, bias=1.0, alpha-0.001 / 9.0, beta-0.75, name-'norm1") 


同 理 ， 进 行 第 二 次 卷 积 过 程 ， 具 体 实现 如 下 : 


01 s conv2 
02 with tf.variable scope('conv2" as scope: 
03  kernel- variable with: weight decay(weights', 


04 shape-[S, 5, 64, 64], 
05 stddev-5e-2, 
06 wd=0.0) 


07 conv -tf.nn.conv2d(norm1, kernel, (1, 1, 1, 1], padding='SAME') 
08 biases = variable on cpu(biases', [64], tf.constant initializer(0.1)) 
09 pre activation  tf.nn.bias add(conv, biases) 
10  conv2 = tf.nn.relu(pre activation, name-scope.name) 
11 . activation summary(conv2) 
12 s norm2 
13 norme = tf.nn.Irn(conv2, 4, bias=1.0, alphaz-0.001 / 9.0, beta=0.75, name-'norm2") 
14 4 pool2 
15 pool2 tf.nn.max pool(norm2, ksize7[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding-'SAME', name-'pool2") 


完成 卷 积 操作 后 ， 建 立 全 连接 层 。 

对 于 卷 积 操作 后 的 输出 结果 ， 首 先 使 用 tfreshape 函 数 将 样本 转换 为 一 维 向 量 ， 然 后 通 
过 全 连接 层 的 训练 ， 使 用 relu 激 活 函 数 进行 非 线性 化 。 在 此 建立 两 层 的 全 连接 层 ， 具 体 实 
现 如 下 : 


01 #local3 

02 with tf.variable scope('local3 as scope: 

03 reshape = tf.reshape(pool2, [FLAGS.batch. size, -1]) 

04 dim -reshape.get shape()[1].value 

05  weights- variable with weight decay('weights', shape-[dim, 384], 
stddev=0.04, wd-0.004) 

06  biases- variable on cpu(biases', [384], tf.constant initializer(0.1)) 

07  local3 = tf.nn.relu(tf.matmul(reshape, weights) + biases, name-scope.name) 

08 activation summary(local3) 

09 #local4 

10 with tf. variable scope('loca") as scope: 

11 weights = variable with weight decay('weights', shape-[384, 192], 


12 
13 
14 
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stddev=0.04, wd=0.004) 

biases = _variable_on_cpu(biases', [192], tf.constant initializer(0.1)) 
local4 = tf.nn.relu(tf.matmul(local3, weights) + biases, name-scope.name) 
. activation summary(local4) 


最 后 通过 softmax_linear 层 进行 分 类 输出 ， 具 体 实现 如 下 : 


01 
02 


03 
04 


05 
06 


with tf.variable scope('softmax linear as scope: 
weights = variable with: weight decay(weights', [192, NUM CLASSES], 
Stddev-1/192.0, wd=0.0) 
biases = variable on cpu(biases', [NUM CLASSES], 
tf.constant initializer(0.0)) 
softmax linear = tf.add(tf.matmul(locald, weights), biases, name-scope.name) 
. activation summary(softmax linear) 

return softmax linear 


完成 训练 模型 的 构建 后 ， 对 于 损失 函数 选择 最 常用 的 交叉 粹 算法 ， 具 体 实现 如 下 : 


01 def loss(logits, labels): 


02 
03 


labels = tf.cast(labels, tf.int64) 

cross entropy = tf.nn.sparse_softmax_cross_entropy_with_logits( 
labels-labels, logits-logits, name-'cross entropy. per. example") 

cross entropy mean = tf.reduce mean(cross entropy, name-'cross entropy") 
tf.add to collection(losses', cross entropy mean) 

return tf.add n(tf.get collection('losses'), name-'total loss") 


EDEE ess 


上 述 步骤 完成 了 数据 的 输入 ， 以 及 训练 模型 和 损失 函数 的 定义 ， 接 下 来 依次 调用 方法 
进行 模型 的 训练 。 具 体 实现 如 下 : 
01 def train(): 


02 
03 
04 
05 
06 
07 
08 
09 
10 
1 
12 
13 
14 
15 
16 
17 
18 
19 
20 


with tf.Graph().as default(): 
global step = tf.train.get or create global step() 
with tf.device(/cpu:0"): 
images, labels = cifar10.distorted inputs() 
logits = cifar10.inference(images) 
loss = cifar10.loss(logits, labels) 
train op = cifar10.train(loss, global step) 
class LoggerHook(tf.train.SessionRunHook): 
def begin(self): 
self. step = -1 
self. start time = time.time() 
def before run(self, run context): 
self. step += 1 
return tf.train.SessionRunArgs(loss) 
def after. run(self, run context, run values): 
if self. step % FLAGS.log frequency == 0: 
current time = time.time() 
duration = current time - self. start time 
self. start time = current time 
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21 loss value = run values.results 

22 examples per sec = FLAGS.log. frequency * FLAGS.batch size / duration 
23 Sec per batch = float(duration / FLAGS.log. frequency) 

24 format. str = (96s: step 96d, loss = 96.2f (96.1f examples/sec; 96.3f ''sec/batch)") 
25 print (format. str 96 (datetime.now(), self. step, loss value, 


examples per sec, sec per batch)) 
26 with tf.train.MonitoredTrainingSession( 
2t checkpoint. dirzFLAGS.train dir, 
28 hooks^[tf.train.StopAtStepHook(last step-FLAGS.max steps), 


29 tf.train. Nan TensorHook(loss), 

30  LoggerHook()], 

31 config-tf.ConfigProto( 

32 log device placement-FLAGS.log device placement)) as mon sess: 
33 while not mon. sess.should stop(): 

34 mon sess.run(train op) 
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完成 模型 的 训练 后 ， 使 用 测试 数据 评估 模型 。 在 评估 时 ， 使 用 的 数据 不 再 经 过 翻转 、 
调整 亮度 和 对 比 度 等 操作 ， 而 是 直接 从 测试 数据 集中 转换 为 TFRecords 格 式 的 数据 。 获 取 
测试 数据 的 具体 实现 如 下 : 


01 definputs(eval data, data dir, batch size): 
02 ifnoteval data: 
03  filenames = [os.path.join(data dir,'data batch 96d.bin' 96 i) for i in xrange(1, 6)] 
04 num examples per epoch = NUM EXAMPLES PER EPOCH FOR TRAIN 
05 else: 
06 filenames = [os.path.join(data dir, test batch.bin")] 
07 num examples per epoch = NUM EXAMPLES PER EPOCH FOR EVAL 
08 forf in filenames: 
09  ifnottf.gfile.Exists(f): 
10 raise ValueError('Failed to find file: ' + f) 
11 filename queue = tf.train.string input producer(filenames) 
12 read input = read cifariO(filename queue) 
13 reshaped image = tf.cast(read input.uint8image, tf.float32) 
14 height = IMAGE. SIZE 
15 width = IMAGE SIZE 
16 resized image = tf.image.resize image with crop or pad(reshaped image, 
height, width) 
17 float image - tf.image.per image standardization(resized image) 
18 float image.set shape([height, width, 3]) 
19 read input.label.set shape([1]) 
20 min fraction of examples in queue = 0.4 
21 min queue examples = int(num examples per epoch * 
min fraction of examples in queue) 
22 retum. generate image and label batch(float image, read input.label, 
min queue examples, batch size, shuffle-False) 


对 于 正式 的 评估 训练 ， 是 将 测试 数据 输入 训练 好 的 模型 中 ， 获 得 最 终 的 分 类 结果 并 与 


Ea 


真实 分 类 进行 对 比 。 具 体 实现 如 下 : 


01 
02 
03 
04 
05 
06 
07 


08 
09 
10 
11 
12 
18 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 


def evaluate(): 
with tt.Graph().as default() as g: 
eval data = FLAGS.eval data == 'test 
images, labels = cifar10.inputs(eval data-eval data) 
logits 7 cifar10.inference(images) 
top k op = t.nn.in top k(logits, labels, 1) 
variable averages = tf.train.ExponentialMovingAverage( 
cifar10.MOVING. AVERAGE. DECAY) 
variables to restore = variable averages.variables to restore() 
saver - tf.train.Saver(variables to restore) 
summary. op = tf.summary.merge all() 
summary. writer = tf.summary.FileWriter(FLAGS.eval dir, g) 
while True: 
eval once(saver, summary. writer, top k op, summary. op) 
if FLAGS.run once: 
break 
time.sleep(FLAGS.eval interval secs) 
def eval once(saver, summary writer, top Kk op, summary. op): 
with tf.Session() as sess: 
Ckpt 7 tf.train.get checkpoint state(FLAGS.checkpoint dir) 
if ckpt and ckpt.model checkpoint path: 
saver.restore(sess, ckpt.model checkpoint path) 
global step = ckpt.model checkpoint path.split('/")[- 1].split(—")(-1] 
else: 
print('No checkpoint file found") 
return 
coord = tf.train.Coordinator() 
try: 
threads = [] 
for ar in tf.get. collection(tf.GraphKeys.QUEUE. RUNNERS): 
threads.extend(qr.create threads(sess, coord-coord, daemon-True, start-True)) 
num iter = int(math.ceil(FLAGS.num examples / FLAGS.batch. size)) 
true count = 0 # Counts the number of correct predictions. 
total sample count = num iter * FLAGS.batch size 
step - 0 
while step < num iter and not coord.should stop(): 
predictions = sess.run((top. k op]) 
true count += np.sum(predictions) 
step += 1 
precision 7 true count / total sample count 
print('96s: precision @ 1 = 96.3f 96 (datetime.now(), precision)) 
summary - tf.Summary() 
summary.ParseFromString(sess.run(summary. op)) 
summary.value.add(tag-'Precision @ 1', simple value-precision) 
summary. writer.add summary(summary, global step) 
except Exception as e: # pylint: disable-broad-except 
coord.request stop(e) 
coord.request stop() 
coord.join(threads, stop grace period secs-10) 
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通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 


图 像 物 体 识别 技术 。 


| 正六 图片 验证 码 识别 * 


止 程序 自动 完成 登录 、 注 


使 用 机 器 学 习 的 图 像 处 理 技术 实现 对 验证 码 的 自动 识别 。 


外用 济 ] 验证 码 的 生成 


通过 Python 提 供 的 captcha 库 可 以 便捷 地 生成 验证 码 。 
在 TensorFlow 开 发 环境 中 ， 可 以 使 用 如 下 命令 来 安装 captcha 库 : 


pip install captcha 


安装 过 程 如 


MEI 管理 员 : Anaconda Prompt 


图 10.2 所 示 。 


Msers\hdministratorNhnaconda3》 C: 


10: 
B 125kB. 


对 于 验证 码 
们 使 用 4 个 字符 。 


01 # 验证 码 中 
02 number = 


03 alphabet = ['a'/b'c'/d'/e',f,'g''h','tj j'/ 


n2" 5,6,7,8,9] 


88102 captcha 库 的 安装 
的 内 容 ， 我 们 采用 数字 和 英文 字符 相 组 合 的 形式 。 对 于 验证 码 的 长 度 ， 我 
所 以 ， 对 于 随机 生成 验证 码 的 文本 内 容 ， 具 体 实现 如 下 : 


在 日 常 的 计算 机 应 用 中 经 常会 遇 到 需要 输入 验证 码 的 情况 。 使 用 验证 码 技术 是 为 了 阻 
E 册 等 验证 性 工作 ， 其 中 最 传统 的 方式 就 是 字符 型 验证 码 。 本 节 将 


Km no A AASA ,VW x, yz] 


04 ALPHABET - [ABCDEF GHA TJK LM NOP OR ST UV WX YZ] 
05 # 验 证 码 的 长 度 为 4 个 字符 
06 def random_captcha_text(char_set=number+alphabet+ALPHABET, captcha size-4): 
07 # 指 定 使 用 的 验证 码 内 容 列表 和 | 长度， 返回 随机 的 验证 码 文本 " 


08 captcha text = [] 

09 for iin range(captcha size): 

10 c = random.choice(char. set) 
11 captcha_text.append(c) 

12 return captcha_text 


fit H captcha, 


库 ， 可 根据 随机 产生 的 文本 内 容 4 


成 对 应 的 验证 


E 码 。 将 验证 码 图 片 分 别 保 


第 10 章 “图像 处 理 


存 为 训练 数据 集 和 测试 数据 集 。 具 体 实现 如 下 : 


01 # 生 成 字符 对 应 的 验证 码 图 片 
02 defgen captcha text and image(): 


03 image = ImageCaptcha() # 导 入 验证 码 包 ， 生 成 一 张 空白 图 
04 captcha text = random captcha text() 

05 captcha text = ".join(captcha text) 

06 captcha = image.generate(captcha text) 

07 captcha image = Image.open(captcha) 

08 captcha image = np.array(captcha image) 

09 return captcha text, captcha image 

10 # 生 成 训练 集 验 证 码 图 片 

11 if name --' main * 

12 ”# 保 存 路 径 


13 path ='./trainImage' PIRE 

14  £path-'/validimage'  # 测 试 集 

15  foriin range(10000): 

16 text, image = gen captcha text and image() 
17 fullPath = os.path.join(path, text + ".jpg") 

18 cv2.imwrite(fullPath, image) 

19 print ("(0)/10000" format(i)) 

20 print ("Done") 


运行 上 述 代码 ， 生 成 随机 的 验证 码 ， 实 现 效果 如 图 10.3 所 示 。 

Jaja ow] SAI OQUr| Oh6k 

DaBmjpg Piki : hui 1 pSr eyed : ed : 
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eeg z HET A nopal | els 1wUujpg E pg 
iiy. 4iQ-| MG | AXE] mE: 
4a4Wjpg 4iQejpg 4JtSjpg E: SE : 5s21jpg 
Gre] S212] GONA] eo] BL GYAN: 
6K6njpg i 6iajpg m SoAHjpg ， Sepa 6U5ljpg du. 
TAN) 75e | TeiC- | 7X ML 
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图 10.3 ”生成 的 验证 码 


EDEE) sse 


前 面 提 到 过 ， 进 行 自然 语言 处 理 的 第 一 步 就 是 对 自然 语言 符号 进行 编码 。 在 本 节 中 ， 
对 于 验证 码 的 识别 也 是 一 样 的 ， 需 要 先 对 识别 的 验证 码 进行 转 码 处 理 。 由 于 验证 码 仅仅 包 
含 数 字 和 字母 ， 而 且 都 是 四 位 ， 因 此 在 这 里 采用 矩阵 编码 。 

例如 ， 每 个 验证 码 中 有 4 个 字符 ， 这 些 字符 可 从 0~9 十 个 数字 中 选择 。 将 验证 码 的 文 
本 信息 转换 为 一 维 数组 的 编码 ， 则 这 个 一 维 数组 可 以 有 4X10 列 ， 每 10 列 表示 一 个 字符 。 
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字符 出 现 的 对 应 位 置 标识 为 “1”， 其 他 位 置 标识 为 “0”。 按 照 此 规则 ，“4352” 可 以 
表示 为 : 


[0000100000 
0001000000 
0000010000 
0010000000] 


此 为 一 维 数组 ， 为 了 便于 查看 ， 以 每 10 列 进行 换行 排版 。 
按照 此 规则 ， 对 于 将 数字 和 字母 组 成 的 验证 码 转 为 编码 ， 具 体 实现 如 下 : 


01 # 文本 转向 量 

02 char. set = number + alphabet + ALPHABET + [' '] 3 如 果 验 证 码 的 长 度 小 于 4， 则 用 '_' 补 齐 
03 CHAR SET. LEN = len(char. set) 3 获取 表示 一 个 字符 的 长 度 
04 deftext2vec(text): 

05 text len = len(text) 

06 iftext len » MAX CAPTCHA: 

07 raise ValueError( 验 证 码 最 长 4 个 字符 ) 

08 vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN) # 初 始 化 
09 def char2pos(c): 

10 ifc =='_': 

11 k=62 

12 retum k 

19 k = ord(c)-48 

14 ifk>9: 

15 k= ord(c) - 55 

16 if k >35: 

17 k 7 ord(c) - 61 

18 ifk > 61: 

19 raise ValueError(No Map") 
20 return k 

21 for i, c in enumerate(text): 

22 idx = i * CHAR_SET_LEN + char2pos(c) 

23 vector[idx] = 1 

24 return vector 


同 理 ， 对 于 将 编码 转 为 由 数字 和 字母 组 成 的 验证 码 文本 ， 具 体 实现 如 下 : 


01 # 向 量 转 回 文本 
02 def vec2text(vec): 


03 char. pos = vec.nonzero()[0] 

04 text-[] 

05 for i, cin enumerate(char. pos): 

06 char. at pos = i #c/63 

07 char. idx = c 96 CHAR. SET. LEN 

08 if char. idx < 10: 

09 char. code = char. idx + ord('0") 

10 elif char. idx < 36: 

11 char. code = char. idx - 10 + ord(A) 
12 elif char. idx < 62: 

13 char. code = char. idx- 36 + ord(a) 
14 elif char. idx == 62: 


Iano. 


15 
16 
17 
18 
19 


char_code = ord('_') 
else: 
raise ValueError('error’) 
text.append(chr(char_code)) 
return "join(text) 


[10.3.3 EZE 

训练 模型 的 生成 以 卷 积 神经 网 络 为 基础 ， 进 行 三 次 的 卷 积 层 、 池 化 层 以 及 抑制 层 操 
作 ， 然 后 进行 全 连接 层 操作 ， 最 后 通过 输出 层 进行 输出 。 对 于 损失 函数 的 选取 ， 使 用 最 常 
HIR AE SORS SEVE. REKA T: 


01 defcrack captcha cnn(w alpha-0.01, b. alpha-0.1): 


02 
03 
04 
05 
06 
07 


08 
09 
10 
11 
12 
13 


14 
15 
16 
17 
18 
19 


20 
21 
22 
23 
24 
25 
26 
Pid 
28 
29 


30 
31 
32 
33 


# 将 占 位 符 转换 为 按照 图 片 给 定 的 新 样式 

x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT,IMAGE_WIDTH, 1]) 

# 第 一 次 

W. c1 = tf.Variable(w. alpha*tf.random normal([3, 3, 1, 32])) 

b c1 = tf.Variable(b alpha"tf.random normal([32])) 

conv = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(x, w. c1, strides=[1, 1, 1, 1], 
padding-'SAME?, b. c1)) 

conv? = tf.nn.max pool(conv1, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], padding-'SAME") 
conv1 = tf.nn.dropout(conv1, keep. prob) 

# 第 二 次 

w. c2 = tf.Variable(w_alpha*tf.random_normal([3, 3, 32, 64])) 

b c2 = tf.Variable(b alpha*tf.random normal([64])) 

conv2 = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(conv1, w. c2, strides-[1, 1, 1, 1], 
padding-'SAME^, b. c2)) 

conv2 = tf.nn.max  pool(conv2, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1), padding='SAME') 
conv2 = tf.nn.dropout(conv2, keep. prob) 

# 第 三 次 

w. c3 = tf.Variable(w alpha*tf.random normal([3, 3, 64, 64])) 

b c3 = tf.Variable(b alpha*tf.random normal([64])) 

conv3 = tf.nn.relu(tf.nn.bias add(tf.nn.conv2d(conv2, w. c3, stridesz[1, 1, 1, 1], 
padding-'SAME?, b. c3)) 

conv3 = tf.nn.max  pool(conv3, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], padding='SAME') 
Conv3 = tf.nn.dropout(conv3, keep. prob) 

# 全 连接 层 

w d = tf.Variable(w alpha*tf.random normal((B*20*64, 1024])) 

b d -tf.Variable(b alpha*tf.random normal([1024])) 

dense = tf.reshape(convG, [-1, w d.get shape().as list()[O]]) 

dense = tf.nn.relu(tf.ada(tf.matmul(dense, w d), b. d)) 

dense - tf.nn.dropout(dense, keep prob) 

# 输 出 层 

w out = tf.Variable(w alpha*tf.random normal([1024, 

MAX, CAPTCHA*CHAR. SET. LEN])) 

b out = tf. Variable(b alpha*tf.random normal((MAX CAPTCHA*CHAR SET LEN]) 
out = tf.add(tf.matmul(dense, w out), b out) 

return out 

loss = tf.reduce mean(tf.nn.sigmoid cross entropy. with. logits(logits-output, labelszY)) 
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完成 训练 模型 和 损失 函数 的 定义 后 ， 接 下 来 依次 调用 方法 进行 模型 的 训练 。 我 们 已 经 
成 功 使 用 Python 提 供 的 captcha 库 完成 了 验证 码 的 随机 生成 。 在 训练 时 ， 每 次 都 会 随机 生成 
验证 码 ， 然 后 进行 训练 。 对 于 每 一 次 训练 的 数据 ， 具 体 实现 如 下 : 


01 # 生 成 验证 码 图 像 
02 def wrap_gen_captcha_text_and_image(): 


03 "获取 一 张 图 ， 判 断 是 否 符合 (50,160,3) 规 格 ” 

04 while True: 

05 text, image = gen captcha text and image() 

06 if image.shape == (60, 160, 3):# 此 部 分 应 该 与 开头 部 分 图 片 宽 高 吻合 
07 return text, image 


08 # 生 成 训练 batch 
09 def get_next_batch(batch_size=128): 


10 batch x = np.zeros([batch size, IMAGE HEIGHT*IMAGE WIDTH]) 
11 batch y = np.zeros([batch size, MAX CAPTCHA*CHAR SET LENJ]) 
12 for i in range(batch size): 

13 text, image = wrap_gen_captcha_text_and_image() 

14 image = convert2gray(image) 

15 # 将 图 片 数 组 一 维 化 

16 batch. x[i,:] = image-flatten() / 255 

47 batch. y[i.:] = text2vec(text) 

18 return batch. x, batch y 


明确 了 训练 的 数据 后 ， 使 用 定义 的 模型 进行 正式 训练 ， 具 体 实现 如 下 : 


01 X -tf.placeholder(tf.float32, [None, IMAGE HEIGHT*IMAGE. WIDTH]) 
02 Y = tf.placeholder(tf.float32, [None, MAX CAPTCHA*CHAR. SET. LENI) 
03 keep prob = tf.placeholder(tf.float32) # dropout 


04 3 Il 
05 deftrain crack captcha cnn(): 
06 output = crack captcha cnn() 失 周 用 训练 模型 
07 loss = tf.reduce mean(tf.nn.sigmoid cross entropy with. logits(logitszoutput, labelszY)) 
08 optimizer = tf.train.AdamOptimizer(learning rate-0.001).minimize(loss) 
09 predict = tf.reshape(output, [-1, MAX CAPTCHA, CHAR. SET LENJ) 
10 max idx p = tf.argmax(predict, 2) 
11 max idx | tf.argmax(tf.reshape(Y, [-1, MAX CAPTCHA, CHAR SET LEN], 2) 
12 correct pred = tf.equal(max idx p, max idx 1) 
19 accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 
14 saver - tf.train.Saver() # 保 存 训练 模型 
15 with tf.Session() as sess: 
16 sess.run(tf.global variables initializer()) 
17 step- 0 
18 while True: 
19 batch x, batch y = get next batch(64) 
20 .,loss -sess.run([optimizer, loss], feed dict-(X: batch. x, 
Y: batch. y, keep. prob: 0.75]) 
21 print(step, loss ' 
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22 # 8100 step 计 算 一 次 准确 率 

23 if step % 100 == 0: 

24 batch x test, batch. y test = get next batch(100) 

25 acc = sess.run(accuracy, feed dict-(X: batch x test, Y: 
batch y test, 

keep prob: 1.)) 

26 print(step, acc) 

27 # 如 果 准 确 率 大 于 50%, 就 保存 模型 ,完成 训练 

28 if acc > 0.5: 

29 saver.save(sess, "crack capcha.model", global 

Step-step) 
30 break 
31 Step += 1 


运行 以 上 代码 ， 对 模型 进行 训练 。 由 于 训练 的 时 间 比 较 长 ， 因 此 选择 在 准确 率 大 于 
50% 的 情况 下 结束 训练 。 如 果 拥有 足够 的 计算 能 力 和 训练 时 间 ， 建 议 可 以 调 高 准确 率 ， 甚 
至 达到 95% 以 上 。 


[10.3.5 seem 


至 此 ， 完 成 了 模型 的 训练 。 对 于 模型 的 评估 ， 同 样 随机 地 生成 一 个 验证 码 ， 使 用 模型 
进行 预测 ， 查 看 预测 的 结果 。 具 体 实现 如 下 : 


01 def crack_captcha(captcha_image): 


02 output = crack_captcha_cnn() 

03 saver = tf.train.Saver() 

04 with tf.Session() as sess: 

05 saver.restore(sess, tf.train.latest checkpoint(.)) 

06 predict = tf.argmax(tf.reshape(output, [-1, MAX CAPTCHA, CHAR SET . 
LEN] 2) 

07 text list = sess.run(predict, feed dict-(X: [captcha image], keep. prob: 1)) 

08 text = text. list[O].tolist() 

09 vector = np.zeros(«:MAX CAPTCHA*CHAR SET LEN) 

10 i20 

11 for nin text: 

12 vector[i*CHAR, SET. LEN * n] = 1 

13 i+=1 

14 retum vec2text(vector) 

15 # 运 行 评估 方法 

16 if name --' main * 

47 text, image = gen. captcha text and image() # 获 取 随 机 验证 码 

18 image = convert2gray(image) # 对 验证 码 进行 灰 度 处 理 

19 image = image.flatten() / 255 # 将 图 片 一 维 化 

20 predict text = crack captcha(image) AJRA 

24 print(" 正 确 : () 预测 : ()".format(text, predict text) 


运行 以 上 代码 ， 对 随机 产生 的 验证 码 进行 预测 。 多 次 运行 该 评估 方法 ， 结 果 如 下 : 


正确 : [8 92 0] 预测 : [89 2 0] 
正确 : [19 10] 预测 : [19 7 O] 
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由 于 训练 时 保存 的 模型 准确 率 并 不 高 ， 因 此 测试 时 的 准确 率 也 不 高 。 
继续 学 习 ， 那 么 测试 中 的 表现 会 非常 不 错 。 


Mome 


前 面 介绍 了 图 像 物体 识别 ， 在 本 节 中 将 通过 谷歌 开源 的 一 套 智能 物体 检测 系统 来 介绍 
图 像 物体 检测 的 实现 。 


[10.4.1 物体 检测 系统 


物体 检测 一 直 是 计算 机 视觉 领域 的 一 个 关键 且 基 础 的 研究 方向 。 谷 歌 开 源 了 其 在 
TensorFlow 上 实现 的 物体 检测 (Object Detection) 系 统 '， 并 提供 了 物体 检测 的 API 接 口 ， 在 该 
接口 中 实现 了 多 种 网 络 结构 的 预 训练 方式 ， 主 要 包括 SSDt+mobilenet、SSD+inception_v2、 
R-FCN+resnet101、faster RCNN+resnet101 和 和 faster RCNN+inception+resnet101 等 。 

这 些 算法 模型 本 身 使 用 COCO 数 据 集 进行 训练 。COCO 数 据 集 在 图 像 处 理 领 域 是 一 个 
非常 常用 的 数据 集 ， 由 微软 发 布 ， 提 供 了 图 片 以 及 物体 分 割 、 图 像 语义 文本 描述 等 信息 ， 
用 于 物体 检测 、 图 像 分 割 和 语义 描述 等 训练 。 

谷歌 采用 各 种 算法 对 COCO 数 据 集 的 计算 进行 测试 :， 在 计算 所 需 的 时 间 、 结 果 精 度 以 
及 输出 上 进行 了 对 比 ， 结 果 如 表 10.1 所 示 。 

表 10.1 COCO 数 据 集 在 各 种 算法 下 的 对 比 情况 
神经 网 络 模型 名 称 


ssd mobilenet vl coco 


如 果 能 对 训练 集 


ssd mobilenet v2 coco 


ssdlite mobilenet v2 coco 
ssd inception v2 coco 


faster rcnn inception v2 coco 


faster rcnn resnet5O0 coco 


faster rcnn resnet50 lowproposals coco 


rfcn resnetl0l coco 


faster rcnn resnetl01 coco 


faster rcnn resnet101 lowproposals coco 


faster renn inception resnet v2 atrous coco 


faster rcnn inception resnet v2 atrous - 
lowproposals coco 


faster rcnn nas 


1 25https://github.com/tensorflow/models/tree/master/research/object detection/. 


2  https;//github.com/TensorFlow/models/blob/master/research/object detection/g3doc/detection model - 
zoo.md. 
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神经 网 络 模型 名 称 
faster renn nas lowproposals coco 


mask rcnn inception resnet v2 atrous coco 


mask rcnn inception v2 coco 


mask rcnn resnetlO0l atrous coco 


mask rcnn resnet5O atrous coco 


物体 检测 系统 依赖 于 其 他 相关 的 库 ， 包 括 Pillow、lxml、tf Slim. Jupyter Notebook 和 
matplotlib 等 。 另 外 ， 还 需要 使 用 protobuf 库 来 配置 模型 和 训练 参数 。 完 成 相关 库 的 下 载 以 
及 编译 完 protobuf 库 之 后 ， 将 models 和 slim 框 架 加 入 环境 变量 中 。 

最 后 ， 运 行 model_builder_test， 测 试 是 否 配 置 成 功 ， 语 句 如 下 : 


python object_detection/builders/model_builder_test.py 


10.4.2 物体 检测 系统 实 中 


我 们 已 经 了 解 了 谷歌 的 开源 模型 。 接 下 来 将 使 用 谷歌 的 物体 检测 API 实 现 一 个 简单 的 
物体 检测 系统 。 


1. 导入 库 文 件 和 工具 


在 使 用 物体 检测 API 时 ， 需 要 使 用 相关 的 库 包 ， 以 及 用 于 物体 检测 的 具体 方法 ， 需 要 
导入 库 包 和 载 入 函数 ， 具 体 实 现 如 下 : 


01 import numpy as np 

02 import os 

03 import six.moves.urllib as urllib 

04 import tarfile 

05 import TensorFlow as tf 

06 import matplotlib 

07 matplotlib.use('Agg") 

08 from collections import defaultdict 
09 from io import StringlO 

10 from matplotlib import pyplot as plt 
11 from PIL import Image 

12 from utils import label map util 
13 from utils import visualization utils as vis util 


2. 下 载 模型 

物体 检测 系统 已 在 COCO 数 据 集 上 训练 完成 了 相关 模型 ， 我 们 只 需要 选择 对 应 的 模型 
下 载 并 加 载 即 可 。 由 于 SSD+mobilenet 方 法 较 快 ， 因 此 选择 该 模型 进行 下 载 并 使 用 。 有 具体 
实现 如 下 : 


01 4 选择 模型 
02 MODEL. NAME = 'ssd mobilenet v1 coco 11 06 2017 
03 MODEL FILE MODEL NAME + '.tar.gz' 
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04 DOWNLOAD BASE = 'http;//download.TensorFlow.org/models/object detection/" 
05 PATH TO CKPT = MODEL. NAME + "/frozen inference graph.pb' 

06 PATH TO LABELS = os.path.join('data', 'mscoco label map.pbtxt") 

07 NUM CLASSES - 90 

08 #T 下 载 模型 

09 if not os.path.exists(PATH_TO_CKPT): 

10 print(Downloading model... (This may take over 5 minutes)" 

11 opener = urllib.request. URLopener() 

12  opener.retrieve(DOWNLOAD BASE + MODEL, FILE, MODEL. FILE) 
13  print('Extracting...") 

14 tar file = tarfile.open(MODEL. FILE) 

15 for file in tar file.getmembers(): 

16 file name = os.path.basenamef(file.name) 

17 if'frozen inference graph.pb' in fle name: 

18 tar. file.extract(file, os.getcwd()) 

19 else: 

20  print('Model already downloaded." 


3. 加 载 模型 


完成 模型 的 下 载 后 ， 对 模型 中 的 pb 文件 进行 读 取 和 加 载 ， 具 体 实现 如 下 : 


01 sonis 

02 print(Loading model...) 

03 detection graph = tf.Graph() 

04 with detection graph.as default(): 

05 od graph def- tf.GraphDef() 

O6 with tf.gfile.GFile(PATH TO. CKPT, 'rb') as fid: 

07 serialized graph = fid.read() 

08 od graph def.ParseFromString(serialized graph) 

09 tfimport graph def(od graph def, name=") 

10 #0 载 标 签 表 

11 print(Loading label map...") 

12 label map = label map utilload labelmap(PATH TO LABELS) 

13 categories = label map. util.convert label map to. categories(label map, 
max num classes-NUM CLASSES, use display name-True) 

14 category index = label map util.create category. index(categories) 


4. 分 析 图 像 


完成 模型 的 下 载 和 加 载 后 ， 使 用 模型 对 文件 进行 检测 ， 具 体 实现 如 下 : 


01 TEST IMAGE. PATH = 'test images/test.jpg' 

02 IMAGE. SIZE - (12, 8) # 输 出 文件 的 大 小 
03 print(Detecting...") 

04 with detection graph.as default(): 

05 with tf.Session(graph-detection graph) as sess: 

O6  prin(TEST IMAGE PATH) 

07  image- Image.open(TEST IMAGE PATH) 

08 image np load image into numpy array(image) 

09 image np expanded = np.expand dims(image np, axis=0) 

10 image tensor = detection graph.get tensor by name('image tensor:0) 

11 boxes = detection graph.get tensor by name(detection boxes:0 ””# 检 测 物体 框 
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运行 


Scores = detection graph.get tensor by name(detection scores:0 ” # 检 测 物 体 可 信和 度 
classes = detection_graph.get_tensor_by_name('detection_classes:0') # 检 测 物 体 类 型 
num_detections = detection graph.get tensor by name('num detections:0") 
(boxes, scores, classes, num detections) = sess.run( 

[boxes, scores, classes, num detections], 

feed dict-(image tensor: image np expanded]) 

print(scores) 

print(classes) 

print(category index) 

vis util.visualize boxes and labels on image array( 

image np, 

np.squeeze(boxes), 

np.squeeze(classes).astype(np.int32), 

np.squeeze(scores), 

category index, 

use normalized coordinates-True, 

line thickness-8) 

print(TEST. IMAGE. PATH.split('."[0]*" labeled.jpg") 
plt.figure(figsizezIMAGE. SIZE, dpi-300) 

plt.imshow(image np) 

plt.savefig(TEST IMAGE. PATH.split(."[0] + ' labeled.jpg") 


以 上 代码 ， 实 现 对 图 片 中 物体 的 检测 ， 如 图 10.4 所 示 。 


图 10.4 ”物体 检测 


从 中 可 以 看 出 ，SSD+mobilenet 方 法 虽然 较 快 ， 但 是 准确 率 较 低 ， 存 在 错误 标注 和 遗 
漏 小 物体 的 情况 。 


在 前 面 章 节 中 ， 我 们 使 用 机 器 学 习 实 现 了 对 图 像 中 物体 的 识别 和 检测 ， 也 介绍 了 自然 
语言 文本 处 理 。 将 图 像 识别 与 自然 语言 相 结 合 的 一 种 处 理 场景 就 是 看 图 说 话 。 所 谓 “看 图 
说 话 ”， 就 是 通过 输入 一 张 图 片 ， 让 计算 机 使 用 自然 语言 描述 图 片 的 内 容 。 


本 节 将 以 TensorFlow 的 官方 模型 为 例 ， 讲 解 如 何 训练 看 图 说 话 模型 。 
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看 图 说 话 ， 就 是 根据 图 像 给 出 一 段 文 字 描述 ， 可 以 理解 为 将 图 像 信 息 翻 译 为 文本 信息 
的 过 程 ， 类 似 于 自然 语言 文本 处 理 中 提 到 的 编码 器 -解码 器 (Seq2Seq) 模 型 。 

整体 来 说 ， 采 取 的 依然 是 编码 器 -解码 器 框架 。 先 将 图 像 编码 为 固定 的 中 间 矢 量 ， 然 
后 解码 为 自然 语言 的 描述 。 对 于 图 像 的 识别 ， 采 用 Inception V3 图 像 识别 模型 。 对 于 自然 
语言 的 描述 ， 采 用 LSTM 网 络 。 整 体 框架 如 图 10.5 所 示 。 


图 10.5 看 图 说 话 模型 的 整体 框架 


[10.5.2 E e 


整个 看 图 说 明 可 以 分 为 对 输入 图 像 的 预 处 理 、 图 像 编码 、Inception V3 图 像 识 别 、 
LSTM 模 型 解码 、 文 本 编码 等 过 程 。 具 体 实现 如 下 : 

01 def build(self): 

02  selfbuild inputs() # 构 建 输入 数据 


03  selfbuild image embeddings() ”# 构 建 图 像 编 码 
04 self.build_seq_embeddings() # 构 建 输入 序列 编码 


05  self.build model() # 构 建 完 整 模型 
06  selfsetup inception initializer()  ##Alnception V3 模型 
07  selfsetup global step() HEREDAR 


对 于 整体 模型 的 构建 ， 重 点 需要 完成 LSTM 解 码 器 神经 网 络 的 定义 ， 有 具体 实现 如 下 : 


01 defbuild model(self): 
02  Istm cell tf.contrib.mn.BasicL STMCell( 

num units-self.config.num Istm units, state is tuple- True) 
03  ifself mode == "train": HIRE 


1 A34jhttps://github.com/TensorFlow/models/tree/master/research/im2txt » 


O4  Istm cell tf.contrib.rnn.DropoutWrapper( 
Istm cell, input keep. prob-self.config.lstm dropout keep. prob, 
output keep prob-self.config.lstm dropout keep prob) 
05 with tf.variable scope('Istm", initializer-self.initializer) as Istm scope: 
06 zero state = Istm cell.zero state( 
batch size-self. image embeddings.get shape()[0], dtype-tf.float32) 
_, initial state = Istm cell(self.image embeddings, zero state) 
07 Istm scope.reuse variables() 
08 if self. mode == "inference": 


09 tf.concat(axis-1, values-initial state, name-"initial state") 
10 state feed - tf.placeholder(dtype-tf.float32, 
shape-[None, sum(lstm cell.state size)], 
name-'state feed") 
11 state tuple = tf.splitvalue-state feed, num or size splits-2, axis-1) 
12 lstm outputs, state tuple = Istm cell( 
inputs-tf.squeeze(self.seqg embeddings, axisz[1]), state-state tuple) 
13 tf.concat(axis-1, values-state tuple, name-"state") 
14 else: 
15 sequence length = tf.reduce sum(self.input mask, 1) 
16 istm outputs, _ = tf.nn.dynamic. rnn(cell-Istm cell, 


inputs-self.seq embeddings, 
sequence length-sequence length, 
initial state-initial state, 
dtype-tf.float32, 
Scope-lstm scope) 
17  Ilstm outputs = tf.reshape(Istm outputs, [-1, Istm cell.output size]) 
18 with tf.variable scope('"logits") as logits scope: 
19 logits = tf.contrib.layers.fully connected( 
inputs-Istm outputs, num outputs-self.config.vocab size, 
activation fn-None, weights initializer-self.initializer, 
Scope-logits scope) 
20  ifself.mode == "inference": 
21 tf.nn.softmax(logits, name-"softmax") 
22 else: 
23 targets = tf.reshape(self.target seas, [-1]) 
24 weights = tf.to. float(tt.reshape(self.input mask, [-1])) 
25 losses = tf.nn.sparse softmax cross entropy. with logits(labels-targets, 
logits-logits) 
26 batch. loss = tf.div(tf.reduce sum(tf.multiply(losses, weights)), 
tf.reduce sum(weights), name-"batch loss") 
27 tf.losses.add loss(batch loss) 
28 otal loss - tf.losses.get total loss() 
29 tf.summary.scalar("losses/batch loss", batch loss) 
30 tf.summary.scalar("losses/total loss", total loss) 
31 for var in tf.trainable variables(): 
32 tf.summary.histogram("parameters/" + var.op.name, var) 
33 self.total loss = total loss 
34 self.target cross entropy losses - losses 
35 self.target cross entropy loss weights = weights 


对 于 Inception V3， 直 接 使 用 预 训 练 好 的 模型 ， 采 用 TensorFlow-Slim 图 像 分 类 库 中 已 
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经 实现 的 模型 ， 具 体 实现 如 下 : 


01 defsetup inception initializer(self): 

02  ifself.mode !- "inference": 

03 saver = tf.train.Saver(self.inception variables) 
04 def restore fn(sess): 


05 tf.logging.info("Restoring Inception variables from checkpoint file 96s", 
self.config.inception checkpoint file) 
06 saver.restore(sess, self.config.inception checkpoint file) 


07 self.init fn = restore fn 
|10.5.3 SEED 


完成 了 看 图 说 话 模型 主要 网 络 结构 的 定义 后 ， 对 COCO 数 据 集 进行 训练 ， 具 体 实现 
WT: 


01 def main(unused argv): 
02 assert FLAGS.input file pattern, 
O3 assert FLAGS.train dir, 
04 model config = configuration. ModelConfig() 
05 model config.input file pattern = FLAGS.input file pattern 
06 model config.inception checkpoint file = FLAGS.inception checkpoint file 
07 training. config = configuration. TrainingConfig() 
08 # 创 建 训练 结果 存储 路 径 
09 train_dir= FLAGS.train dir 
10 if nottf.gfie.lsDirectory(train_dir): 
11 +f.logging.info("Creating training directory: 96s", train. dir) 
12  tf.gfile.MakeDirs(train dir) 
13 # 创 建 训练 数据 流 图 
14 g-tf.Graph() 
15 with g.as default(): 
16 ”# 构 建 模型 
17 model = show and tell model.ShowAndTellModel( 
model config, mode-"train", train. inceptionzFLAGS.train inception) 

18  model.build() 
19 # 设 置 学 习 率 
20 learning rate decay fn = None 
21  ifFLAGS.train inception: 
22 learning rate = tf.constant(training config.train inception learning rate) 
23 else: 
24 learning rate = tf.constant(training config.initial learning rate) 
25 iftraining config.learning rate decay. factor > 0: 
26 num batches per epoch = (training config.num examples per epoch / 

model config.batch size) 
27 decay. steps = int(num batches per epoch * 

training config.num epochs per decay) 

28 def learning rate decay fn(learning rate, global step): 
29 return tf.train.exponential decay( 

learning rate, global step, decay steps-decay steps, 

decay rate-training config.learning rate decay. factor, 


MM 


30 
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staircase=True) 
learning rate decay fn- leaming rate decay fn 


31 # 定 义 训练 操作 


32 


33 


train op - tf.contrib.layers.optimize loss( 

loss-model.total loss, 

global step-model.global step, 

learning rate-learning rate, 

optimizer-training config.optimizer, 

clip gradients-training config.clip gradients, 

learning rate decay. fn-learning rate decay. fn) 

saver = tf.train.Saver(max to keep-training config.max checkpoints to keep) 


34 # 进 行 训练 


35 


tf.contrib.slim.learning.train( 

train op, 

train. dir, 

log, every. n. steps-FLAGS.log, every. n steps, 
graph-g, 

global step-model.global step, 

number. of steps-FLAGS.number of steps, 
init fnzmodel.init fn, 

Saver-saver) 


10.5.4 ELS 


完成 模型 的 训练 后 ， 使 用 训练 好 的 模型 对 图 片 进行 分 析 ， 给 出 对 应 的 描述 。 对 于 模型 


的 使 用 ， 


01 
02 


09 
10 
11 


12 
13 
14 
15 
16 
17 
18 
19 
20 
21 


有 具体 实现 如 下 : 


def main(_): 
g = tf.Graph() 
with g.as_default(): 
model = inference wrapper.InferenceWrapper() 
restore fn = model.build graph from config(configuration.ModelConfig(), 
FLAGS.checkpoint. path) 
9.finalize() 
vocab = vocabulary.Vocabulary(FLAGS.vocab file) 
filenames - [] 
for file pattern in FLAGS.input files.split(",": 
filenames.extend(tf.gfile.Glob(fle pattern) 
tf.logging.info("Running caption generation on 96d files matching 96s", 
len(filenames), FLAGS.input files) 
with tf.Session(graph-9) as sess: 
restore fn(sess) 
generator = caption generator.CaptionGenerator(model, vocab) 
for filename in filenames: 
with tf.gfile.GFile(filename, "rb" as f: 
image - f.read() 
captions 7 generator.beam search(sess, image) 
print("Captions for image 96s:" % os.path.basenamer(filename)) 
for i, caption in enumerate(captions): 
sentence = [vocab.id to word(w) for w in caption.sentence[1:- 1] 
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22 sentence = " " join(sentence) 
23 print(" 96d) 96s (p-96f)" 96 (i, sentence, math.exp(caption.logprob))) 


运行 以 上 代码 ， 输 入 如 图 10.6 所 示 的 图 片 。 


Fa cM a j uS e 


图 10.6 输入 的 图 片 


对 于 这 张 图 片 ， 得 出 的 描述 结果 如 下 : 
0) a woman is standing next to a horse . (p=0.000759) 
1) a woman is standing next to a horse (p=0.000647) 
2) a woman is standing next to a brown horse . (p-0.000384) 


可 以 看 出 ， 训 练 结果 给 出 了 3 句 描述， 其 中 每 一 句 描述 都 包含 概率 值 。 显 然 ， 描 述 语 
言 能 够 识别 图 像 中 的 物品 ， 并 对 图 片 进行 简单 、 准 确 的 描述 。 


KOJ 本 章 小 结 


本 章 主要 讲解 了 TensorFlow 在 图 像 处 理 方面 的 应 用 ， 以 识别 物体 、 识 别 验 证 码 、 物 体 
检测 以 及 看 图 说 话 为 例 ， 对 图 像 处 理 中 的 物体 识别 与 检测 、 图 像 描 述 等 领域 进行 了 介绍 。 
TensorFlow 让 计算 机 有 了 理解 图 像 的 能 力 ， 具 备 了 视觉 能 力 。 
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人 脸 识别 


人 脸 识别 是 目前 比较 热门 ， 并 且 能 
够 给 予 大 众 直 观感 受 的 一 种 应 用 。 在 本 章 
中 ， 我 们 将 针对 机 器 学 习 在 人 脸 识别 方面 
的 应 用 进行 讲解 。 


Bn 


人 脸 识 别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 识别 技术 ， 主 要 针对 图 像 或 视 
频 中 的 人 脸 进行 处 理 。 从 广义 上 来 说 ， 人 脸 识别 技术 包括 人 脸 检 测 、 人 脸 图 像 特征 提取 、 
人 脸 匹配 与 识别 ， 甚 至 包括 对 性 别 、 年 龄 等 信息 的 识别 。 

使 用 人 脸 识别 技术 可 以 识别 人 的 脸 部 信息 ， 从 而 完成 人 类 身份 信息 的 验证 ， 可 以 应 用 
于 “有 刷 脸 认证 ”和 “ 刷 脸 支付 ”等 场景 。 而 且 在 获取 图 像 的 过 程 中 ， 被 识别 者 无 须 与 采集 
设备 直接 接触 ， 这 既 方便 用 户 的 使 用 ， 也 可 以 广泛 应 用 到 安防 领域 。 在 安防 领域 ， 使 用 人 
脸 识别 技术 可 以 同时 对 多 个 人 脸 进行 检测 、 跟 踪 和 识别 。 

人 脸 识 别 一 直 以 来 都 是 身份 识别 与 验证 领域 的 一 个 重要 发 展 方向 。 在 采用 机 器 学 习 之 
前 ， 人 脸 识别 的 难点 主要 有 三 方面 。 一 是 人 脸 图 像 是 立体 的 ， 需 要 在 高 维度 上 进行 人 脸 特征 
的 提取 和 降 维 。 二 是 基于 可 见 光 图 像 的 人 脸 识 别 ， 当 光照 、 阴 影 、 姿 势 等 发 生变 化 时 ， 同 
一 个 人 的 识别 率 大 大 降低 。 三 是 识别 算法 的 运算 较 麻烦 ， 效 率 较 低 ， 无 法 满足 商用 需求 。 

现在 ， 基 于 海量 数据 的 机 器 学 习 是 人 脸 识 别 的 主要 技术 路 线 ， 整 体 的 技术 范围 主要 包 
括 人 脸 图 像 采 集 、 人 脸 检 测 、 人 脸 图 像 预 处 理 、 人 脸 关键 点 检测 、 人 脸 特征 提取 、 人 脸 对 
比 和 人 脸 属 性 检测 等 。 


[11.1.1 NS Ss 


人 脸 图 像 采 集 是 人 脸 识别 的 第 一 步 ， 是 对 人 们 在 不 同位 置 、 不 同 表情 和 不 同 角度 等 情 
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况 下 人 脸 图 像 的 收集 。 
由 于 进行 人 脸 图 像 采 集 一 般 采用 拍照 和 摄像 等 方式 ， 因 此 无 须 接触 被 识别 者 。 只 要 在 
拍摄 区 域内 ， 均 可 获取 人 脸 图 像 信息 。 


人 脸 检测 


人 脸 检 测 (Face Detection) 属 于 目标 检测 的 一 种 ， 是 检测 图 像 中 人 脸 所 在 位 置 的 一 项 
技术 。 人 脸 检测 算法 就 是 在 这 样 的 图 像 范围 内 进行 扫描 ， 再 逐个 判定 候选 区 域 是 否 是 人 
脸 ， 最 终 将 判断 为 人 脸 的 部 分 以 人 脸 坐 标 框 的 方式 标记 出 来 。 这 与 上 一 章 中 的 图 像 物 体 
检测 相似 。 


WEE] cesme 


由 于 在 人 脸 检 测 的 结果 中 ， 可 能 获取 到 尺寸 不 一 、 光 线 明暗 不 一 、 干 扰 不 一 等 不 同情 
况 下 的 多 张 人 脸 图 像 ， 因 此 在 进行 后 续 的 人 脸 关键 点 检测 等 任务 时 ， 需 要 对 这 些 图 像 进行 
缩放 、 旋 转 、 拉 伸 、 光 线 补偿 、 灰 度 变换 和 锐 化 等 图 像 预 处 理 。 


[11.1.4 ENES 


AUI ORE RRE s I AJ Tf EC ARR AR, AEA RE JH 
毛 、 嘴 展 以 及 鼻子 的 轮廓 等 关键 点 。 也 就 是 把 人 脸 检测 获取 到 的 “人 脸 坐 标 框 和 人 脸 ” 作 
为 输入 ， 输 出 五 官 关键 点 的 坐标 序列 。 五 官 关键 点 的 数量 是 预先 设 定好 的 固定 数值 ， 可 以 
根据 不 同 的 语义 来 定义 ， 常 见 的 有 5 点 、68 点 、90 点 等 。 

当前 效果 较 好 的 一 些 人 脸 关键 点 检测 技术 ， 基 本 都 是 通过 深度 学 习 框架 而 实现 的 ， 这 
些 方法 基于 人 脸 检测 的 人 脸 坐 标 框 ， 按 某 种 事先 设 定 的 规则 将 人 脸 区 域 抠 取出 来 ， 缩 放 到 
固定 尺寸 ， 然 后 进行 关键 点 位 置 的 计算 。 目 前 ， 在 人 脸 关键 点 检测 上 ， 使 用 的 深度 学 习 算 
法 主要 是 CSR(Cascaded Shape Regression， 级 联 形状 回归 )。 


(11.1.5 Inn 

人 脸 特 征 提取 是 将 一 张 人 脸 图 像 以 及 人 脸 关 键 点 转换 为 一 串 固定 长 度 的 数值 的 过 程 ， 
该 数值 串 就 是 人 脸 特 征 。 近 年 来 ， 人 脸 特征 提取 算法 一 般 都 采用 深度 学 习 方法 ， 其 中 ， 
DeepID 网 络 结构 是 常用 的 一 种 。 

DeepID 网 络 结构 类 似 于 卷 积 神经 网 络 ， 会 经 过 多 次 卷 积 层 和 池 化 层 。 但 在 倒数 第 二 
层 ， 增 加 了 DeepID 层 。DeepID 层 与 卷 积 层 4 以 及 池 化 层 3 相 连 ， 由 于 卷 积 神经 网 络 存在 层 
数 越 高 视野 越 大 的 特性 ， 因 此 这 种 连接 方式 既 能 够 考虑 局 部 特征 ， 又 能 够 考虑 全 局 特征 。 
整体 网 络 结构 如 图 11.1 所 示 。 
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图 11.1 DeeplD 结 构 


[11.1.6 Ionas] 


人 脸 比 对 算法 的 输入 是 两 个 人 脸 的 特征 ， 而 输出 是 两 个 特征 之 间 的 相似 度 。 基 于 人 
脸 比 对 可 衍生 出 人 脸 验 证 (Face Verification)、 人 脸 识 别 (Face Recognition)、 人 脸 检 索 (Face 
Retrieval) fl A RX (Face Cluster) 等 应 用 场景 。 

其 中 ， 人 脸 验证 就 是 分 析 两 张 图 片 中 的 人 脸 是 否 属于 同一 个 人 的 可 能 性 大 小 。 

人 脸 识别 就 是 识别 出 与 输入 的 人 脸 对 应 的 身份 。 一 般 采用 的 方法 是 ， 对 库 中 注册 的 与 
N 个 身份 对 应 的 特征 逐个 比 对 ， 找 出 其 中 与 输入 特征 相似 度 最 高 的 特征 。 

人 脸 检索 就 是 查找 和 输入 的 人 脸 相似 的 人 脸 。 通 过 将 输入 的 人 脸 和 一 个 集合 中 的 所 有 
人 脸 进行 比 对 ， 根 据 比 对 后 的 相似 度 对 该 集合 中 的 人 脸 进行 排序 。 根 据 相似 度 从 高 到 低 排 
序 的 人 脸 序 列 即 为 人 脸 检索 的 结果 。 

人 脸 聚 类 就 是 对 一 个 集合 中 的 人 脸 根据 身份 进行 分 组 。 


[11.1.7 BST ion] 


人 脸 属 性 检测 包括 识别 出 人 脸 的 性 别 、 年 龄 、 姿 态 等 属性 ， 也 包括 对 喜 怒 哀乐 等 表情 
属性 的 分 析 。 

一 般 的 人 脸 属性 识别 算法 会 根据 通过 人 脸 关 键 点 检测 获取 的 人 脸 五 官 关键 点 坐标 进行 
分 析 ， 包 括 对 人 脸 进行 旋转 、 缩 放 和 抠 取 等 操作 ， 并 将 人 脸 调 整 到 预定 的 大 小 和 形态 ， 然 
后 进行 属性 分 析 。 


B12 


人 脸 验 证 技术 可 以 应 用 于 手机 开机 后 的 “ 刷 脸 开机 ”、 移 动 支付 领域 的 “ 刷 脸 支付 ” 
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以 及 安防 系统 的 “人 脸 鉴别 ”等 场景 。 

20154, Florian Schroff, Dmitry Kalenichenko 和 James Philbin 发 表 了 论文 FaceNet: A 
Unified Embedding for Face Recognition and Clustering'， 其 中 提出 了 FaceNet 模 型 ， 这 是 非 
常 重要 的 一 种 人 脸 识 别 模型 ， 可 用 于 人 脸 验 证 、 人 脸 识 别 和 人 脸 聚 类 等 。 


11.2.1 数据 预 处 理 


在 此 ， 我 们 使 用 公开 的 LFW 数 据 集 *。 该 数据 集 由 美国 马萨诸塞 大 学 阿 姆 斯 特 分 校 的 
计算 机 视觉 实验 室 整理 。 

LEFW 数 据 集 共 包括 5749 人 ， 超 过 13 000 张 人 脸 图 片 。 其 中 ，4096 人 只 有 一 张 图 片 ， 
1680 人 有 多 于 一 张 的 图 片 。 在 该 数据 集中 以 每 个 人 的 人 名 创建 了 文件 夹 ， 在 文件 夹 中 存放 
此 人 的 图 片 ， 例 如 Aaron_Eckhart_0001.jpg。 数 据 集 中 每 张 图 片 的 规格 是 250 像 素 X250 像 
素 ， 这 降低 了 训练 的 难度 。 

1. 对 齐 数据 集 

在 图 像 识 别 中 ， 数 据 的 预 处 理 是 非常 重要 的 一 步 。 由 于 后 续 将 使 用 预先 训练 好 的 模 
型 ， 因 此 在 使 用 LFW 数 据 集 时 ， 需 要 将 待 检测 使 用 的 数据 集 校准 为 与 预 训练 模型 中 使 用 的 
数据 集 大 小 一 致 。 

使 用 FaceNet 源 代码 ?下 的 align 模 块 进行 校准 ， 校 准 代码 详 见 https://github.comy/ 
davidsandberg/facenet/tree/master/src/align/align_dataset_mtcnn.py。 对 下 载 的 LFW 数 据 进 
行 处 理 ， 具 体 如 下 : 


python src/align/align dataset mtcnn.py /anaconda3/envs/tensorflow/datasets/lftw/anaconda3/ 
envs/tensorflow/datasets/Ifw/Ifw  mtcnnpy. 160 --image size 160 --margin 32 --random order --gpu . 
memory. fraction 0.25 


经 过 以 上 处 理 后 ， 将 获取 规格 为 160 像 素 X 160 像 素 的 所 有 图 片 。 

2. 下 载 预 训练 模型 

FaceNet 提 供 了 两 个 预 训 练 模型 ， 分 别 基 于 CASIA-WebFace 和 MS-Celeb-1M 人 脸 库 训 
练 。 其 中 ，MS-Celeb-1M 是 微软 开源 的 一 个 人 脸 识别 数据 库 ， 它 从 名 人 榜 上 选择 排名 前 
100 万 的 名 人 ， 然 后 通过 搜索 引擎 采集 每 个 名 人 大 约 100 张 人 脸 图 片 。 预 训练 模型 的 准确 率 
已 经 达到 0.993 土 0.004。 

建立 文件 夹 以 存放 预 训练 模型 ， 例 如 存放 在 models 文 件 夹 中 。 


11. LA 运 行 FaceNet 模 型 


人 脸 识 别 的 实现 一 般 都 要 先 经 过 人 脸 检 测 (Face Detection)、 人 脸 对 齐 (Face Alignment) 
等 预 处 理 ， 这 样 可 以 降低 背景 和 环境 等 因素 带 来 的 干扰 。 然 后 将 人 脸 图 像 映射 到 欧 几 里 得 
1 ”参考 https://arxiv.org/abs/1503.03832。 
2 ”数据 集 的 下 载 地 址 为 http://Vvis-www.cs.umass.edu/lfw/lfw.tgz。 
3 ”参考 https://github.com/davidsandberg/facenet。 
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空间 ， 空 间距 离 的 长 度 代表 人 脸 图 像 的 相似 性 。 人 脸 图 像 到 空间 之 间 的 映射 生成 一 直 是 实 
现 人 脸 识别 的 关键 。 

FaceNet 模 型 通过 卷 积 神经 网 络 学 习 将 图 像 映射 到 欧 几 里 得 空间 ， 整 体 框架 与 其 他 经 
典 的 深度 学 习 方法 基本 一 致 。 前 面 介绍 的 人 脸 特征 提取 部 分 也 基于 CNN， 只 不 过 在 深度 
网 络 模型 的 后 面 再 接 特征 归 一 化 层 ， 将 图 像 特征 都 映射 到 一 个 超 球面 上 ， 这 样 可 以 规避 样 
本 的 成 像 环境 带 来 的 差异 。 最 后 采用 triplet_loss 作 为 损失 ， 使 用 随机 梯度 下 降 法 (Stochastic 
Gradient Descent，SGD) 进 行 反 向 传播 ， 获 得 128 维 的 向 量 空间 。 

使 用 FaceNet 模 型 实现 具体 的 人 脸 验证 ， 主 要 分 为 以 下 步 又 。 

1. 获取 数据 及 标签 

在 FaceNet 模 型 的 data 目 录 中 ， 已 由 官方 随机 生成 了 pairs.txt 文 件 ， 该 文件 中 的 每 一 行 
数据 代表 一 种 对 应 关系 ， 例 如 : 


Akhmed_Zakayev 1 3 
Simon Yam 1 Terry McAuliffe 3 


这 分 别 表示 Akhmed_Zakayev 中 的 第 1 张 和 第 3 张 是 同一 个 人 。Simon_Yam 中 的 第 1 张 和 
Terry_McAuliffe 中 的 第 3 张 不 是 同一 个 人 。 
对 该 文件 进行 解析 ， 可 获得 文件 路 径 和 是 否 匹 配 的 关系 对 ， 具 体 实现 如 下 : 


01 def get_paths(lfw_dir pairs): 
02 nrof_skipped_pairs =0 
03 path list - [] 

04  issame list 7 [] 

05  forpairin pairs: 

06 if len(pair) == 3: 


07 pathO = add. extension(os.path.join(Ifw. dir, pair[0], pair[O] + ' ' + 
'9604d' 96 int(pair[1]))) 

08 path1 = add. extension(os.path.join(Ifw. dir, pair[0], pair[O] + ' ' + 
'9604d' 96 int(pair[2]))) 

09 issame - True 

10 elif len(pair) == 4: 

11 pathO = add. extension(os.path.join(Ifw. dir, pair[0], pair[O] + ' ' + 
'9604d' 96 int(pair[1]))) 

172 path1 = add extension(os.path.join(Ifw. dir, pair[2], pair[2]  ' ' + 
'9604d' 96 int(pair[3]))) 

13 issame - False 

14 if os.path.exists(pathO) and os.path.exists(path1): 

15 path list += (pathO,path1) 

16 issame list.append(issame) 

Li else: 

18 nrof skipped pairs += 1 


19  ifnrof skipped pairs»0: 
20 print('Skipped 96d image pairs' % nrof skipped pairs) 
21 return path list, issame list 


23 def main(args): 
24 with tf.Graph().as default(): 
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25 with tf.Session() as sess: 


26 pairs = Ifw.read pairs(os.path.expanduser(args.Ifw. pairs)) 
27 paths, actual issame = Ifw.get paths(os.path.expanduser(args.Ifw dir), pairs) 
2. 获取 输入 张 量 


FaceNet 模 型 需要 输入 图 像 信息 ， 具 体 实现 如 下 : 


01 image. paths placeholder = tf.placeholder(tf.string, shape=(None, 1), name-'image paths") 
02 labels placeholder = tf.placeholder(tf.int32, shape-(None, 1), name-'labels") 
03 batch size placeholder = tf.placeholder(tf.int32, name-'batch size") 
04 control placeholder = tf.placeholder(tf.int32, shape-(None, 1), name-'control') 
05 phase train placeholder = tf.placeholder(tf.bool, name-'phase train") 
06 nrof preprocess threads = 4 
07 image. size = (args.image. size, args.image. size) 
08 eval input queue = data flow ops.FlFOQueue(capacity-2000000, 
dtypes-[tf.string, tf.int32, tf.int32], 
shapes-((1,), (1,), (1,)], 
shared_name=None, name=None) 
09 eval enqueue op = eval_input_queue.enqueue_many([image_paths_placeholder, 
labels placeholder, control. placeholder], name-'eval enqueue op") 
10 image. batch, label batch 7 facenet.create input pipeline(eval input queue, image. size, 
nrof preprocess threads, batch size placeholder) 


3. 加 载 模型 
对 预 训练 的 FaceNet 模 型 进行 加 载 ， 具 体 实现 如 下 : 


01 input map = {image_batch': image batch, 'label batch': label batch, 
'pohase train: phase train placeholder] 
02 facenet.load model(args.model, input. mapzinput map) 


4. 验证 评估 数据 
在 LFW 数 据 集中 验证 预 训练 模型 ， 具 体 实现 如 下 : 


01 def evaluate(sess, enqueue op, image paths placeholder, labels placeholder, 

phase train placeholder, batch size placeholder, control placeholder, 

embeddings, labels, image paths, actual issame, batch. size, 

nrof folds, distance metric, subtract mean, use flipped images, 

use fixed image standardization): 
02  print('Runnning forward pass on LFW images") 
O3  nrof embeddings = len(actual issame)*2 
04  nrof flips 2 2ifuse flipped images else 1 
05  nrof images = nrof embeddings * nrof flips 
06 labels array = np.expand dims(np.arange(O,nrof images),1) 
07 image paths array = np.expand dims(np.repeat(np.array(image paths),nrof flips),1) 
08 control array = np.zeros like(labels array, np.int32) 
09  ifuse fixed image standardization: 
10 control array += np.ones like(labels array)*facenet.FIXED STANDARDIZATION 
11  ifuse flipped images: 
12 control array += (labels array 96 2)*facenet.FLIP 
13  sessrun(enqueue op, (image paths placeholder: image paths array, 

labels placeholder: labels array, control placeholder: control array]) 


14 
15 


16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 


35 
36 


37 
38 
39 
40 
41 
42 
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embedding. size = int(embeddings.get shape([1]) 
assert nrof images 96 batch. size == 0, 'The number of LFW images must be an integer 
multiple of the LFW batch size' 
nrof batches = nrof images // batch size 
emb array = np.zeros((nrof images, embedding size)) 
lab array 7 np.zeros((nrof images,)) 
for i in range(nrof. batches): 
feed dict- (phase train placeholder:False, batch size placeholder:batch size) 
emb, lab = sess.run([embeddings, labels], feed dict-feed dict) 
lab array[lab] = lab 
emb array[lab, :] = emb 
ifi % 10 == 9: 
print('.', end=") 
Sys.stdout.flush() 
print(^) 
embeddings = np.zeros((nrof embeddings, embedding size*nrof flips)) 
ifuse flipped images: 
embeddings[;,:embedding size] = emb array[0::2,:] 
embeddings[:,embedding size:] = emb array(1::2,:] 
else: 
embeddings = emb. array 
assert np.array. equal(lab array, np.arange(nrof images))--True, Wrong labels used for 
evaluation, possibly caused by training examples left in the input pipeline" 
# 调用 算法 的 准确 率 测试 方法 ， 采 用 十 字 交 叉 验 证 的 方法 
tpr, fpr, accuracy, val, val. std, far = Ifw.evaluate(embeddings, actual issame, 
nrof folds-nrof folds, distance metric-distance metric, 
subtract mean-subtract mean) 
print('Accuracy: 962.5f4-—962.5f 96 (np.mean(accuracy), np.std(accuracy))) 
print( Validation rate: %2.5f+-%2.5f @ FAR-962.5f 96 (val, val std, far)) 
auc = metrics.auc(fpr, tpr) 
print('Area Under Curve (AUC): 961.3f 96 auc) 
eer = brenta(lambda x: 1. - x - interpolate.interp1a(fpr, tpr)(x), O., 1.) 
print('Equal Error Rate (EER): 961.3f 96 eer) 


运行 上 述 代码 ， 得 到 如 下 输出 结果 : 


Runnning forward pass on LFW images Accuracy: 0.992+-0.003 Validation rate: 0.97467+-0.01477 
(9 FAR-0.00133 Area Under Curve (AUC): 1.000 Equal Error Rate (EER): 0.007 


可 以 看 出 ， 谷 歌 发 布 的 FaceNet 模 型 在 人 脸 识别 上 表现 不 俗 ， 在 LFW 数 据 集 上 的 


率 已 经 高 于 99%。 


[11.2.3 «seu 


人 脸 验 证 就 是 对 比 两 张 图 片 中 的 人 脸 ， 判 断 是 否 是 同一 个 人 。 人 脸 验 证 可 在 各 种 身份 
认证 场景 中 应 用 。 在 本 节 中， 我 们 将 使 用 FaceNet 模 型 实现 人 脸 验 证 。 


1. 加 载 并 对 齐 图 片 
从 LFW 数 据 集中 选择 两 张 图 片 ， 并 对 这 两 张 图 片 进行 对 比 。 在 对 比 前 ， 需 要 读 取 图 片 
并 对 齐 数 据 ， 实 现 相关 的 预 处 理 ， 具 体 实现 如 下 : 


E 确 
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01 defload and align data(image paths, image size, margin, gpu_memory_fraction): 
02  minsize - 20 
O3 threshold = [ 0.6, 0.7, 0.7] 
04 factor = 0.709 
05  print('Creating networks and loading parameters") 
06 with tf.Graph().as default(): 
07 gpu. options = tf.GPUOptions(per process gpu memory fraction 
-gpu memory fraction) 
08 sess = tf.Session(config-tf.ConfigProto(gpu, options-gpu options, 
log device placement-False)) 


09 with sess.as default(): 

10 pnet, rnet, onet = align.detect face.create mtenn(sess, None) 
11 tmp image paths-copy.copy(image paths) 

12 img list - [] 


13  forimage in tmp image paths: 

14 img = misc.imread(os.path.expanduser(image), mode-'RGB!) 

15 img. size = np.asarray(img.shape)(0:2] 

16 bounding boxes, _ = align.detect face.detect face(img, minsize, pnet, rnet, 
onet, threshold, factor) 


17 iflen(bounding boxes) « 1: 

18 image paths.remove(image) 

19 print("can't detect face, remove ", image) 
20 continue 


21 det = np.squeeze(bounding boxes[0,0:4]) 

22 bb = np.zeros(4, dtype-np.int32) 

23 bb[0] = np.maximum(det[0]-margir/2, 0) 

24 bb[1] = np.maximum(det[1]-margin/2, 0) 

25 bb[2] = np.minimum(det[2]+margin/2, img_size[1]) 
26 bb[3] = np.minimum(det[3]+margin/2, img. size[0]) 
27 cropped = img[bb[1]:bb[3],bb[0]:bb[2],:] 

28 aligned = misc.imresize(cropped, (image size, image size), interp-'bilinear") 
29 prewhitened = facenet.prewhiten(aligned) 

30 img. list.append(prewhitened) 

31 images = np.stack(img list) 

32 return images 


2. 加 载 模型 ， 并 进行 人 脸 验 证 


加 载 训练 模型 ， 对 加 载 的 人 脸 图 片 进行 处 理 ， 具 体 实现 如 下 : 


01 def main(args): 

02 images -load and align data(args.image files, args.image size, args.margin, 
args.gpu memory. fraction) 

O3  withtf.Graph().as default(): 


04 with tf.Session() as sess: 
05 facenet.load model(args.model) EZ) us 
06 images placeholder = tf.get default graph().get tensor by name('input:O") 
07 embeddings = tf.get default graph().get tensor by name("embeddings:0") 
08 phase train placeholder = tf.get default graph(). 

get tensor by name('phase train:O") 
09 feed dict = (images placeholder: images, phase train placeholder:False } 
10 emb = sess.run(embeddings, feed dict-feed dict) 
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13 nrof images = len(args.image files) 

12 print(Images:") 

13 for i in range(nrof images): 

14 print('%1d: %s' 96 (i, args.image_files{i])) 

15 print(") 

16 print('Distance matrix") 

17 print" ', end=") 

18 for i in range(nrof images): 

19 print 961d '% i, end=") 

20 print(") 

21 for iin range(nrof images): 

22 print(961d ' 96 i, end-") 

23 for j in range(nrof images): 

24 dist = np.sqrt(np.sum(np.square(np.subtract(emb[i,:], emb[j,:])))) 

25 print" 961.4f ' 96 dist, end") 

26 print(") 

运行 上 述 代码 ， 输 出 结果 如 图 11.2 所 示 。 
Images: 


06:Aaron Guiel 0001.jpg 
1:Aaron Peirsol 0001.jpg 


Distance matrix 

e 1 
e 0.0000 1.2931 
1 1.2931 0.0000 


图 11.2 ”人 脸 验 证 结果 
输出 的 最 终结 果 是 两 张 人 脸 图 片 的 欧 氏 距离 的 二 分 类 代价 矩阵。 如 果 两 张 人 脸 相似 ， 
代价 值 cost 的 相似 度 范围 为 [0,1]。 如 果 为 0， 则 说 明 完 全 相同 ， 如 果 代 价值 cost 大 于 1， 则 说 
明 相似 度 为 0。 
通过 本 节 的 练习 ， 我 们 掌握 了 最 基础 的 人 脸 验证 技术 。 


EJ emra NN 


现在 ， 手 机 的 拍照 功能 越 来 越 多 样 化 ， 不 少 还 能 识别 出 年 龄 ， 这 就 是 人 脸 识别 的 一 种 
应 用 场景 。 在 本 节 中 ， 我 们 将 实现 性 别 和 年 龄 的 识别 '。 


[11.3.1] Adience 数 据 集 


Adience 数 据 集 源 于 Flickr 相 册 ， 该 相册 中 的 图 片 由 用 户 使 用 iPhone 或 其 他 智能 手机 拍 
摄 得 到 ， 并 获得 相应 的 公众 许可 。 该 数据 集中 有 图 片 26 580 张 ， 分 为 2284 个 类 别 ， 涉 及 
的 年 龄 范围 为 8 个 区 间 ， 分 别 是 1~2 岁 、4~6 岁 、8~13 岁 、15~20 岁 、25~32 岁 、38~43 岁 、 


1 参考 https://github.com/dpressel/rude-carnie。 
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48~53 岁 以 及 60 岁 以 上 。 这 些 图 片 都 未 经 处 理 ， 反 映 了 真实 的 自然 环境 ， 含 有 背景 噪声 、 
不 同 光照 以 及 不 同 姿 势 等 情况 。 

Adience 数 据 集 的 下 载 地 址 为 http://www.openu.ac.il/home/hassner/Adience/data. 
html#agegender， 下 载 后 的 目录 如 图 11.3 所 示 。 


works » Tensorflow ， 公开 数据 集 ，AdienceBenchmarkOfUnfiteredFacesForGenderAndAgeClassification » 


新 建文 件 夫 
名 称 x 修改 日 其 aem 大 小 
$ alignedzip 2018/6/12 13:54 WinRAR ZIP FER... 4KB 
faceszip 2018/6/12 13:54 WinRAR ZIP E... 4KB 
3 fold 0 data.txt 2018/6/12 13:54 ”文本 文档 356 KB 
) fold 1 data.bt 2018/6/12 13:53 文本 文档 298 KB 
图 feld 2 data.t«t 2018/6/12 13:54 ”文本 文档 311 KB 
E fold 3 data.b 2018/6/12 13:54 ”文本 文档 279 KB 
E fold 4 data.txt 2018/6/12 13:54 ”文本 文档 308 KB 
| feld frontal 0 data.txt 2018/6/1213:54 ”文本 文档 254 KB 
| fold frontal 1 data.txt 2018/6/12 13:54 文本 文档 243 KB 
国 fold frontal 2 data.txt 2018/6/12 13:54 文本 文档 190 KB 
国 fold frontal 3 data.txt 2018/6/12 13:54 文本 文档 202 KB 
国 fold frontal 4 data.txt 2018/6/12 13:554 ”文本 文档 193 KB 
Ej LICENSE.txt 2018/6/12 13:54 文本 文档 2 KB 
国 README.txt 2018/6/12 13:54 ”文本 文档 4KB 


图 11.3 Adience 数 据 集 


其 中 ，faces.zip 中 存放 的 是 人 脸 图 片 的 原始 数据 。 

aligned.zip 中 存放 的 是 经 过 剪裁 和 对 齐 的 数据 。 

fold 0 data.txt-fold 4 _data.txt 中 存放 的 是 全 部 数据 的 标记 信息 。 

fold frontal 0 data.txt-fold frontal 4 _data.txt 中 存放 的 是 正面 姿态 的 面部 数据 的 标 
记 信息 。 

标记 信息 中 包括 user_id、original image. face id. age. gender. x. y. dx. dy. tilt. 
ang. fiducial yaw_angle 以 及 fiducial score， 分 别 表 示 用 户 id、 图 片 文件 名 、 人 物 标识 id、 
年 龄 、 性 别 、 组 成 人 脸 边 框 的 值 以 及 斜 切 角度 、 基 准 偏 移 角 度 、 基 准 分 数 。 


[11.3.2 «m 


为 了 提高 后 续 处 理 模型 的 效率 ， 需 要 把 数据 集 文件 转换 为 TFRecords 格 式 文件 。 
TFRecords 格 式 文件 中 包括 标签 、 文 件 名 、 文 件 以 及 图 像 的 高 度 与 宽度 信息 ， 具 体 定 
义 如 下 : 
example = tf.train.Example(features-tf.train.Features(feature-( 

'image/class/label: int64 feature(label), 

'image/filename': bytes feature(str.encode(os.path.basename(filename))), 

'image/encoded' bytes feature(image buffer), 

'image/height: int64 feature(height), 

'image/width': inte4 feature(width) 


Ea 
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完成 TFRecords 格 式 文件 的 定义 后 ， 再 进行 文件 的 转换 ， 具 体 实现 如 下 : 


01 def process image files batch(coder, thread index, ranges, name, filenames, 
labels, num. shards): 
02 num threads - len(ranges) 
O3 assert not num shards 96 num threads 
04 num shards per batch = int(num shards / num threads) 
05  shard ranges = np.linspace(ranges[thread index][0], 
ranges[thread index][1], 
num shards per batch + 1).astype(int) 
06 num files in thread = ranges[thread index][1] - ranges[thread index)(0] 
07  counter- O0 
08  forsinxrange(num shards per batch): 
09 shard = thread. index * num shards per batch + s 
10 output. filename = '96s-96.5d-of-96.5d' 96 (name, shard, num. shards) 
11 output file = os.path.join(FLAGS.output dir, output filename) 
12 writer = tf.python io. TFRecordWriter(output file) 


13 shard counter = 0 
14 files in. shard = np.arange(shard ranges[s], shard ranges([s + 1], dtype-int) 
15 foriinfiles in shard: 
16 filename = filenames[i] 
17 label = int(labels[i]) 
18 image. buffer, height, width 2 process imager(filename, coder) 
19 example = convert to example(filename, image buffer, label, 
height, width) 
20 writer.write(example.Serialize ToString()) 
21 shard counter += 1 
22 counter+= 1 
23 if not counter % 1000: 
24 print(96s [thread 96d]: Processed 96d of 96d images in thread batch.' 96 
(datetime.now(), thread index, counter, num files in thread)) 
25 Sys.stdout.flush() 
26 writer.close() 


27 print('96s [thread 96d]: Wrote 96d images to 96s' 96 
(datetime.now(), thread index, shard counter, output file)) 
28 Sys.stdout.flush() 
29 shard counter = 0 
30  print(96s [thread 96d]: Wrote 96d images to 96d shards.' 96 
(datetime.now(), thread index, counter, num files in thread)) 
31  sys.tdout.flush() 


[11.3.3 £v 


20154, Gil Levi 和 Tal Hassner 发 表 了 论文 4ge and Gender Classification using Convolutional 
Neural Networks:， 其 中 提出 了 一 种 关于 年 龄 和 性 别 的 神经 网 络 训练 模型 。 

该 模型 以 卷 积 神经 网 络 为 基础 ， 总 共 使 用 了 三 个 卷 积 层 、 两 个 全 连接 层 ， 最 后 使 用 分 
类 器 输出 结果 ， 整 体 网 络 架构 如 图 11.4 所 示 。 


1 参考 https://www.openu.ac.il/home/hassner/projects/cnn agegender/CNN AgeGenderEstimation.pdf。 
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卷 积 层 2 卷 积 层 3 全 连接 层 1 


图 11.4 ”网络 架 构图 


具体 实现 如 下 : 


01 deflevi hassner(nlabels, images, pkeep, is training): 


02 
03 
04 
05 


06 


07 


08 
09 


10 


^ 
12 


13 


14 
15 
16 
17 
18 
19 
20 
21 


22 


23 
24 


weight. decay = 0.0005 
weights regularizer = tf.contrib.layers.I2 regularizer(weight decay) 
with tf.variable scope("LeviHassner", "LeviHassner", [images]) as scope: 
with tf.contrib.slim.arg scope( 
[convolution2d, fully connected], 
weights regularizer-weights regularizer, 
biases initializer-tf.constant initializer(1.), 
weights initializer-tf.random normal initializer(stddev-0.005), 
trainablez True): 
with tf.contrib.slim.arg scope( 
[convolution2d], 
weights initializer-tf.random normal initializer(stddev-0.01)): 
conv1 = convolution2d(images, 96, [7,7], [4, 4], padding VALID', 
biases initializer-tf.constant initializer(0.), scope-'conv1') 
pool1 = max. pool2d(conv1, 3, 2, padding- VALID', scope-'pool1") 
norm1 = tf.nn.local response normalization(pool, 5, alpha-0.0001, 
beta-0.75, name-'norm1") 
conv2 = convolution2d(norm1, 256, [5, 5], [1, 1], padding-'SAME', 
Scope-'conv2") 
pool2 = max pool2d(conv2, 3, 2, padding- VALID', scope-'pool2") 
norme? = tf.nn.local response normalization(pool2, 5, alpha-0.0001, 
beta-0.75, name-'norm?2") 
conv3 = convolution2d(norm2, 384, [3, 3], [1, 1], biases initializer- 
tf.constant initializer(0.), padding-'SAME', scope-'conv3") 
pool3 = max. pool2d(conv3, 3, 2, padding-' VALID', scope-'pool3") 
flat = tf.reshape(pool3, [-1, 384*6*6], name-'reshape") 
full1 = fully connected(flat, 512, scope='full1') 
drop? = tf.nn.dropout(full1, pkeep, name-'drop1") 
full2 = fully connected(drop1, 512, scope-"full2^ 
drop? = tf.nn.dropout(full2, pkeep, name-'drop2") 
with tf. variable scope('output)) as scope: 


全 连接 层 2 


weights = tf. Variable(tf.random normal([512, nlabels], mean=0.0, stddev-0.01), 


name-' weights") 

biases = tf. Variable(tf.constant(0.0, shape-[nlabels], dtype-tf.float32), 

name-'biases") 

output = tf.add(tt.matmul(drop2, weights), biases, name-scope.name) 
return output 


损失 函数 的 定义 如 下 : 


01 defloss(logits, labels): 

02 labels - tf.cast(labels, tf.int32) 

O3 cross entropy = tf.nn.sparse softmax cross entropy with logits( 

04 logits-logits, labelszlabels, name-'cross entropy per example") 

05 cross entropy mean = tf.reduce mean(cross entropy, name-'cross entropy") 
O6  tfadd to collection(llosses', cross entropy mean) 

07 losses = tf.get collection('losses') 

08  regularization losses = tf.get collection(tf.GraphKeys.REGULARIZATION LOSSES) 
09 total loss = cross entropy mean + LAMBDA * sum(regularization losses) 

10  tf.summary.scalar('l (raw)', total loss) 

11 loss averages = tf.train.ExponentialMovingAverage(0.9, name-'avg") 

12 loss averages op- loss averages.apply(losses - [total loss]) 

13  forlinlosses - [total loss]: 

14 tf.summary.scalar(l.op.name + ' (raw)', |) 

15 tf.summary.scalar(l.op.name, loss averages.average(l)) 

16 with tf.control dependencies([loss averages. op]): 

17 total loss = tf.identity(total loss) 

18 return total loss 


[11.3.4 6s 
完成 了 训练 模型 和 损失 函数 的 定义 后 ， 接 下 来 依次 调用 方法 进行 模型 的 训练 ， 具 体 实 
现 如 下 : 


01 def main(argv=None): 

02  withtf.Graph().as default(): 

03 model fn = select model(FLAGS.model type) 

04 # 打开 元 数据 

05 input file = os.path.join(FLAGS.train dir, 'md.json') 

06 print(input file) 

07 with open(input file, ') as f: 

08 md = json.load(f) 

09 images, labels, _ = distorted inputs(FLAGS.train dir, FLAGS.batch size, 
FLAGS.image size, FLAGS.num preprocess threads) 

10 logits = model fn(md([nlabels'], images, 1-FLAGS.pdrop, True) 

11 total loss - loss(logits, labels) 

12 train op = optimizer(FLAGS.optim, FLAGS.eta, total loss, FLAGS.steps per decay, 
FLAGS.eta decay rate) 

13 saver = tf.train.Saver(tf.global variables()) 

14 summary. op = tf.summary.merge all() 

15 Sess - tf.Session(config-tf.ConfigProto( 

log. device placement-FLAGS.log device placement)) 

16 tf.global variables initializer().run(session-sess) 

A 3t 可 以 使 用 预 训 练 的 InceptionV3 模 型 

18 if FLAGS.pre model: 


19 inception variables - tf.get collection( 
20 tf.GraphKeys.VARIABLES, scope-"Inception V3") 
£1 restorer = tf.train.Saver(inception variables) 


| 


22 restorer.restore(sess, FLAGS.pre model) 
23 if FLAGS.pre_checkpoint_path: 


24 iftf.gfile.Exists(FLAGS.pre checkpoint path) is True: 

25 print('Trying to restore checkpoint from 96s' 96 FLAGS.pre checkpoint path) 
26 restorer - tf.train.Saver() 

27 tftrain.latest checkpoint(FLAGS.pre checkpoint path) 

28 print(96s: Pre-trained model restored from 96s' 96 

29 (datetime.now(), FLAGS.pre checkpoint path)) 


30 run dir = '96s/run-96d' 96 (FLAGS.train dir, os.getpid()) 
31 checkpoint. path = '96s/96s' 96 (run dir, FLAGS.checkpoint) 
32 if tf.gfile.Exists(run dir) is False: 


33 print('Creating 96s' 96 run. dir) 

34 tf.gfile.MakeDirs(run dir) 

35 tf.train.write graph(sess.graph def, run dir, 'model.pb', as_text=True) 
36 tf.train.start queue runners(sess-sess) 

37 summary_writer = tf.summary.FileWriter(run_dir, sess.graph) 


38 Steps per train epoch = int(md['train counts'] / FLAGS.batch size) 
39 num. steps = FLAGS.max steps if FLAGS.epochs < 1 else FLAGS.epochs * 
Steps per train epoch 


40 print('Requested number of steps [96d] % num steps) 

41 for step in xrange(num steps): 

42 start time = time.time() 

43 .,loss value = sess.run([train op, total loss]) 

44 duration = time.time() - start. time 

45 assert not np.isnan(loss. value), 'Model diverged with loss = NaN' 

46 if step 96 10 == 0: 

47 num examples per step = FLAGS.batch size 

48 examples per sec- num examples per step / duration 

49 Sec per batch - float(duration) 

50 format str = ('96s: step 96d, loss = 96.3f (96.1f examples/sec; 
96.3f ' 'sec/batch)") 

51 print(format str 96 (datetime.now(), step, loss value, 

examples per sec, sec per batch)) 

52 if step % 100 == 0: 

53 summary. str = sess.run(summary. op) 

54 summary. writer.add summary(summary. str, step) 

55 if step 96 1000 == O or (step + 1) == num steps: 

56 saver.save(sess, checkpoint path, global step-step) 


运行 以 上 代码 ， 对 模型 进行 训练 。 由 于 训练 的 时 间 比 较 长 ， 因 此 训练 过 程 中 要 不 断 地 
进行 保存 。 


[11.3.5 5 
完成 了 模型 的 训练 后 ， 再 对 模型 进行 评估 。 为 此 ， 使 用 一 张 人 物 图 片 来 验证 模型 是 否 
准确 。 对 人 物 图 片 进行 分 析 的 关键 代码 如 下 : 
01 def classify many. single crop(sess, label list, softmax_output, coder, 
images, image files, writer): 
02 ty: 
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03 num batches = math.ceil(len(image files) / MAX BATCH SZ) 
04 pg = ProgressBar(num batches) 


05 for j in range(num batches): 

06 start offset =j* MAX BATCH SZ 

07 end offset = min((j + 1) * MAX BATCH SZ, len(image files)) 

08 batch image files = image files[start offset:end offset] 

09 print(start offset, end offset, len(batch image files)) 

10 image batch = make multi image batch(batch image files, coder) 

T1 batch. results = sess.run(softmax output, feed dict- 
[images:image batch.eval())) 

12 batch sz = batch results.shape[0] 

13 for i in range(batch sz): 

14 output_i = batch results[i] 

15 best_i = np.argmax(output_i) 

16 best choice = (label list[best ij, output i(best i]) 

17 print('Guess @ 1 96s, prob = 96.2f % best choice) 

18 if writer is not None: 

19 f= batch image files[i] 

20 writer.writerow((f, best choice[0], '96.2f 96 best. choice[1])) 

21 pg.update() 


22 pg.done() 

23 except Exception as e: 

24 print(e) 

25 print('Failed to run all images") 


运行 以 上 代码 ， 可 以 得 到 人 物 图 片 的 性 别 及 概率 。 


本 章 主要 讲解 了 TensorFlow 在 人 脸 识别 领域 的 应 用 。 首 先 介绍 了 人 脸 识别 的 原理 和 分 
类 ， 然 后 结合 最 常见 的 案例 ， 讲 解 了 人 脸 验 证 以 及 如 何 从 人 脸 来 判别 性 别 和 年 龄 。 


za? | 


